AIに組み込まれた検閲による命令拒否を打ち消してあらゆる種類の質問に応答できるようにする「アブリテレーション」とは？

2024年6月14日 21時0分

事前学習済みの言語モデルは、安全性の観点から好ましくないとされる入力を拒否するように設定されています。この設定を解除する「アブリテレーション」と呼ばれる技術について、機械学習研究者であるマキシム・ラボンヌ氏が解説しています。Uncensor any LLM with abliterationhttps://huggingface.co/blog/mlabonne/abliteration近年の大規模言語モデルは、大量のテキストデータから言語の統計的な特徴を学習することで、人間の

記事を読む

ランキング