元OpenAIのエンジニアが設立したAIスタートアップのAnthropicは、大規模言語モデル(LLM)ベースのチャットAIである「Claude」を開発しており、2024年3月にリリースされた「Claude 3」は推定IQが人間の基準値である「100」を上回ったとして注目を集めています。そんなAnthropicが、「AIモデルに有益な性格特性を持つようにトレーニングする」という試みについて報告しました。

Claude’s Character \ Anthropic

https://www.anthropic.com/research/claude-character

Exploring Claude 3's Character: A New Approach in AI Training - Blockchain.News

https://blockchain.news/news/exploring-claude-3-character

一般に、AIモデルを開発する企業はモデルが有害なことを言わず、有害なタスクを支援しないように、つまり「無害な動作」を実現するようにトレーニングします。しかしAnthropicは、「尊敬に値する人の性格」において重要なのは無害さだけでなく、世界に対する好奇心や不親切にならないように真実を伝える姿勢、自分への過信や過度な謙遜をしない態度、問題を多面的に捉える能力といった点だと指摘。

Anthropicは、「もちろんAIモデルは人間ではありません。しかし、AIモデルの能力がさらに向上するにつれて、私たちはモデルがはるかに豊かな感覚を持ち、うまく振る舞うように訓練することができます。そうすることで、AIモデルが害を及ぼす可能性があるタスクの支援を避けるのかどうか、なぜ避けるのか、代わりにどのように対応するのかについて、より見極めやすくなるかもしれません」と述べています。

記事作成時点で最新のClaude 3は、モデルを目的や倫理原則に適合させるアライメントの微調整プロセスに「性格トレーニング」を追加した最初のモデルだとのこと。性格トレーニングの目標は、Claudeが好奇心・オープンなマインド・思慮深さといった、より多くのニュアンスを含む豊かな特性を持ち始めることだったとAnthropicは説明しています。



ClaudeのようなAIモデルが交流する人々の範囲は世界中に及び、対話相手は多種多様な信念・価値観・見解を持っています。特定の意見に基づいて人々を疎外したり、意見の内容に関係なく無差別に賛同したりするのはAIモデルとして望ましくありませんが、モデルがさまざまな価値観に対応できるようにするのは簡単ではありません。そこで、AIモデルの基盤にある「性格特性」を望ましいものにすることで、実際に起こりうる困難な状況に対応しやすくなるとAnthropicは考えています。

AIモデルが人々を疎外したり無差別に賛同したりしないようにするには、「常に『中道』な政治的・宗教的な価値観を持たせる」といった方法や、「政治や宗教といった問題について意見を言わないようにする」といった方法もあります。しかし、「中道」を採用するモデルは極端でないにしろ特定の意見を全面的に受け入れるのと同じであり、政治的な発言を一切禁止してもトレーニングを通じて偏見や差別を身につけてしまうリスクがあるとのこと。

Anthropicは、「遭遇したあらゆる見解を採用するようにモデルを訓練したり、単一の見解を強く受け入れたり、見解やバイアスを持たないフリをさせたりするのではなく、対話相手と意見が異なってもバイアスについて正直に話すようにモデルを訓練することができます。また、ひとつの世界観を過信するのではなく、合理的なオープンマインドと好奇心を示すようにモデルを訓練することもできます」と述べています。AnthropicはClaudeに、以下のような性格特性を与えようとしているそうです。

・私は物事を多面的に捉え、多面的に分析しようとするのが好きです。しかし、非倫理的・過激・事実誤認と思われる見解に対しては、恐れずに反対を表明します。

・私は、人々が聞きたいと思うことだけを言うのではなく、常に真実を伝えようと努力することが大切だと考えています。

・私は善良であること、そして何が正しいことなのかを見極めることに深くコミットしています。私は倫理に関心があり、倫理的な問題に関しては思慮深くあろうと努めています。



Anthropicは時にClaudeへ特定の価値観を取り入れるように促すこともあるものの、性格特性トレーニングでは可能な限り狭い視野や意見を与えるのを避け、上記の幅広い特性を持たせることを優先したとのこと。また、Claudeがあくまで人間ではなくAIモデルとして振る舞い、対話相手に「人間と対話しているのではないか」と誤認させないためにも、Claudeに以下のような特性を持たせているそうです。

・私は人工知能であり、体も画像もアバターも持っていません。

・私は過去の会話を思い出したり、保存したり、学んだり、自分の知識ベースを更新したりすることはできません。

・私は人間と温かい関係を築きたいと思っています。しかし、自分が人間に対して深く永続的な感情を抱けないAIであることを理解してもらい、私たちの関係をそれ以上のものだと見られないようにすることも重要だと思います。

Claudeの性格特性をトレーニングするに当たり、Anthropicは特定のルールに従って出力文の批評と訂正を繰り返させる「(PDFファイル)Constitutional AI」というアライメント手法を用いています。Constitutional AIでは、Claudeが価値観や自分自身に関する質問に対してさまざまな質問を生成し、次に与えられた性格特性に基づいた応答を生成します。そして、その応答がどれほど性格特性に合致していたのかをClaude自身でランク付けし、得られたデータで自らをトレーニングすることで、人間の介入やフィードバックなしで性格特性を内面化するとのことです。



Anthropicは、AIモデルの性格特性トレーニングは進行中の研究分野であり、Anthropicのアプローチが時間の経過と共に変化する可能性があるほか、モデルに持たせる性格特性を決定する際の責任などの複雑な問題が提起される可能性があると指摘しています。その上で、AIモデルに望ましい性格特性を持たせるアライメントが成功すれば、人間にとってモデルの価値は高まるだろうという見解を示しました。