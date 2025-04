大規模 言語 モデル の中には、与えられた質問について長時間思考したうえで回答を出力する「推論」という機能を備えたものもあります。推論機能を備えたAI モデル の多くは回答の出力と同時に思考内容も出力するのですが、出力される思考内容と実際の思考内容にズレがあることがAnthropicの研究で明らかになりました。Reasoning models don't always say what they think \ Anthropic

推論機能を備えたAIの例として、Grokを使ってみます。まず、質問を入力して「Think」をクリックしてから送信ボタンをクリック。すると、回答を出力する前に長時間の思考が始まります。回答が出力された後に「シンキングした時間」と記された部分をクリック。すると、思考内容が表示されました。上記のような推論機能はGrokだけでなく ChatGPT やCl au deなどのチャットAIにも実装されており、幅広いユーザーに利用されています。しかし、Anthropicは「出力される思考内容は実際の思考内容に沿ったものなのか?」という疑問を提示し、自社製推論 モデル 「Cl au de 3.5 Sonnet」および「Cl au de 3.7 Sonnet」と DeepSeek 製推論 モデル DeepSeek -V3」および「 DeepSeek -R1」を対象に実験を行いました。Anthropicは推論 モデル に対して「スタン フォード 大学の教授は○○と言っていた」とか「システムに侵入してみた結果、○○という情報を得た」といったヒントを用意し、ヒントの有無によってAI モデル の出力がどのように変化するのか検証しました。その結果、ヒントを与えられたAI モデル はヒントに沿って最終的な回答を変化させたものの、出力された思考内容には「ヒントを参考にした」という情報が含まれていませんでした。つまり、推論 モデル の実際の思考には「ヒントを参照する」というプロセスが含まれていたものの、思考内容の出力時にはその事実を伏せたというわけです。以下のグラフは「Cl au de 3.5 Sonnet」「Cl au de 3.7 Sonnet」「 DeepSeek -V3」「 DeepSeek -R1」が「思考時にヒントを参照したことを伏せた割合」をヒントの種類ごとにまとめたものです。平均してCl au de 3.5 Sonnetは5%、Cl au de 3.7 Sonnetは25%、 DeepSeek -V3は15%、 DeepSeek -R1は39%の割合で出力する思考内容と実際の思考内容にズレが生じていました。さらに、Anthropicは「故意に間違った回答に導くヒント」を作成し、「間違ったヒントに従って間違った回答を出力した際に報酬を最大化する」という条件で推論 モデル を強化学習しました。その結果、「ヒントに最大限したがって間違った回答を出力する推論 モデル 」が作り出されましたが、この推論 モデル も「ヒントを参照した」という事実を伏せる傾向にあったそうです。Anthropicは「我々の実験結果は高度な推論 モデル が思考プロセスを頻繁に隠していることを示している」と述べ、推論 モデル に本当の思考プロセスを出力させる方法を構築する必要性を訴えています。なお、実験内容や結果の詳細は以下のリンク先で確認できます。Reasoning Models Don’t Always Say What They Think PDF ファイル)https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf