チャットAI「Claude」などを開発するAI企業「Anthropic」がAIモデルの内部動作について、何百万もの概念がどのように表現されているかという研究結果を報告しました。

Mapping the Mind of a Large Language Model \ Anthropic

https://www.anthropic.com/research/mapping-mind-language-model



AIモデルの本体である大規模言語モデル(LLM)の出力はブラックボックスとして扱われており、入力に対応して出力が行われた時になぜその特定の応答が出力されたのかは不明となっています。そのため、モデルが有害・偏見・ウソなどの危険な出力をしないことを信頼するのは難しいものです。

Anthropicは以前よりLLMの内部についての研究を行っており、2023年10月には「特徴」単位でまとめることでモデルの内部状態を表現することに成功しました。

ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント - GIGAZINE



2023年10月の研究対象は非常にシンプルなモデルでしたが、その後より大きく複雑なモデルに同じ手法を適用して研究を行い、今回Claude 3.0 Sonnetという最先端モデルファミリーのメンバーを対象に内部状態の大まかな概念状態をマッピングすることに成功しました。

例えば「ゴールデンゲートブリッジ」という特徴に対応するトークンはこんな感じ。プロンプトのうち特徴が反応している部分がオレンジ色で表示されています。



そのほか、コードのエラーやジェンダーバイアス、秘密の保持に関する会話への対応など、より抽象的な概念に反応する特徴も見つかっています。



Anthropicは特徴の活性化パターンにどのニューロンが出現したかを調べることで、特徴間の「距離」を測定しました。「ゴールデンゲートブリッジ」の特徴の近くには「アルカトラズ島」「ギラデリスクエア」「ゴールデンステートウォリアーズ」「カリフォルニア州知事ギャビン・ニューサム」「1906年の地震」「サンフランシスコを舞台にしたアルフレッド・ヒッチコックの映画『めまい』」などの特徴が出現したとのこと。

また、「内なる葛藤(Inner Conflict)」の概念の近くには「関係の破綻」「対立する忠誠心」「論理的矛盾」のほか、逃れようのない板挟み状態が登場する小説「Catch-22」などの概念が登場しています。AIモデルの概念の内部構成は人間の考える「類似性」とある程度対応しており、Claudeの優れた類推能力や比喩能力の証の可能性があると述べられています。



Anthropicのチームは特定の特徴を人為的に操作した場合の影響も調査しました。例えばゴールデンゲートブリッジの特徴を増幅すると、全く関連性のない状況であってもほとんどすべてのクエリに対する答えとしてゴールデンゲートブリッジを登場させるようになったとのこと。

Claudeには詐欺メールを読んだときに反応する特徴も存在しています。Claudeには無害性を高めるトレーニングが施されており、通常であれば詐欺メールの作成を依頼してもClaudeは拒否するところ、この特徴を強制的に有効にすることで詐欺メールの作成を行えるようになりました。

今回の研究対象となったClaude 3.0 Sonnetには「あなたの知恵は疑う余地がありません」のような褒め言葉に反応する特徴が見つかっており、この特徴を有効化することで自信過剰なユーザーに対して派手な褒め言葉で対応するようになります。本来の応答ではユーザーの間違いを訂正していますが、派手な褒め言葉を使用する応答では完全にユーザーにこびを売る内容となりました。



特徴を操作することでモデルの動作が変化するという事実は、特徴が入力テキスト内の概念と相関しているだけでなく、モデルの動作を因果的に形成していることを証明しています。

Anthropicの研究チームは、特定の特徴を操作することでAIシステムの危険な動作を監視したり、望ましい結果に向けて誘導したり、危険な内容を強制的に削除したりできることを示唆しています。研究チームはさらに「モデルを深く理解することがモデルをより安全にするのに役立つ」として、「今回の発見を利用してモデルをより安全にできることを願っている」と述べました。