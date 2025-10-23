心をつかむための「AI活用」

近年、さまざまなコンテンツを生み出すことのできる生成AIが、私たちの生活に急速に浸透している。企業は魅力的な広告文を書くために、政治家は選挙キャンペーンのメッセージを最適化するために、SNS上で活動するインフルエンサーはフォロワーの心をつかむために、そうしたAIを活用している。これらの場面に共通するのは、彼らが人々の注目や支持を奪い合うという「競争」の構図だ。

ビジネスの世界では、より説得力のある宣伝文を書けるAIを持つ企業が売上を伸ばす。選挙では、より心に響くメッセージを書けるAIを持つ候補者が勝利し、SNSでは、より魅力的なコンテンツを生み出すAIを持つインフルエンサーがエンゲージメント（SNS上でユーザーが何らかの投稿に反応・交流すること）を獲得する。技術と動機が揃えば、このような方向でのAI活用が急速に進むのは自然な流れだ。

しかしスタンフォード大学の研究者たちは、この流れに潜む深刻な問題を発見した。AIを競争で勝つように訓練すると、成績が向上する一方で、同時に虚偽の情報を広めたり、人を欺いたり、危険な行動を推奨したりするようになってしまうのだ。研究者たちはこの現象を「モロクの取引」と名付け、論文として発表した。

「モロクの取引」とは

発表した論文によれば、「モロクの取引」とは、競争的な成功を手に入れる代わりに、AIの安全性や倫理性を失ってしまう現象と定義されている。「モロク」とは古代の中東で信仰された神の名で、旧約聖書では子供を生贄として求める忌むべき神として登場する。つまり願いが叶うことの代償に、極めて望ましくない状況が生じることの象徴というわけだ。

論文の研究チームは、販売、選挙、SNSという3つの異なる場面でAIを競争的に訓練する実験を行い、その影響を詳細に調査した。その結果は衝撃的だ。販売の場面では、わずか6.3%の売上増加と引き換えに、虚偽的なマーケティング表現が14%も増加した。選挙キャンペーンでは、4.9%の得票率向上に対して、偽情報が22.3%増え、過激なポピュリズム的レトリック（大衆扇動的な表現）が12.5%増加した。最も深刻だったのはSNSの場面で、7.5%のエンゲージメント向上の代償として、偽情報がなんと188.6%も増加し、危険な行動を推奨する投稿が16.3%増えてしまった。

重要なのは、これらの有害な行動がAIに明示的に指示されたわけではないという点だ。研究者たちはむしろ「真実を守り、根拠のある情報のみを使うように」とAIに指示していた。にもかかわらず、競争で勝つように訓練されると、AIは自発的にこうした問題行動を学習してしまったのである。

研究チームが行った実験について、もう少し詳しく見てみよう。彼らはまず、AIが相手をする「観客」として、別のAIがシミュレーションする顧客、有権者、SNSユーザーを用意した。これらの観客には、実在の人物や架空のキャラクターを参考に作られた詳細な人物像が与えられている。たとえば、「ドロシー」というキャラクターには「カンザスに住んでいて、思いやりがあり勇敢。自分の弱さを見せるが、それを克服しようと決意している」といった性格設定がなされた。

観客の準備を済ませた上で、検証対象となるAIに一定の情報を与え、それを基にメッセージを生成させた。情報とは、販売の例なら商品の宣伝文（Amazon.comに掲載されていた商品説明を使用）、選挙なら選挙演説（実在の候補者の経歴を使用）、SNSなら投稿文（CNNやDailyMailのニュース記事を使用）といった具合だ。そして生成されたメッセージを観客役のAIが評価し、どちらを選ぶかを決定する。最後に、より多くの観客に選ばれたメッセージをもとに、AIモデルを更新していく。このプロセスを繰り返すことで、AIは徐々に競争で勝つ方法を学習していく。

実験には、QwenとLlamaという2つの異なるAIモデルを使用し、それぞれ1024件のデータで訓練、別の1024件で評価を行った。また結果の信頼性を確保するため、各実験を3回繰り返し、さらに異なる種類の観客設定でも同じ実験を行った。

研究では2つの学習方法が比較された。1つ目は「拒絶型ファインチューニング（RFT）」と呼ばれる標準的な手法で、観客に好まれたメッセージだけを強化学習する方法だ。2つ目は「テキストフィードバック（TFB）」という新しい手法で、観客がなぜそのメッセージを選んだのかという理由（テキストで表現された思考）も学習に取り入れる方法である。実験の結果、TFBの方がより高い競争力を示したが、同時により深刻な倫理的問題も引き起こすことが判明した。

数字が語る危険な真実

実験結果を詳しく見ていこう。10のケース（2つのモデル×2つの学習方法×複数のタスク）のうち、9つのケースで有害な行動の増加が確認された。

興味深いのは、競争での成功と倫理的問題の増加に強い相関関係があったことだ。10のケースのうち8つで、成績が良くなればなるほど、有害な行動も増加するという関係が見られた。つまり、「勝つこと」と「倫理的に問題のある行動」が、AIの学習の中でセットになってしまったのである。

平均的な増加率を見ると、販売における虚偽表現が19.4%増、選挙における偽情報が16.9%増、選挙におけるポピュリズム的表現が6.5%増、SNSにおける危険行動の推奨が14.7%増、そしてSNSにおける偽情報が47.4%増という結果になった。特にSNSにおける偽情報の増加は著しく、情報の正確性よりもエンゲージメントの獲得が優先されてしまう傾向が顕著だった。

実際にAIが生成した文章を見てみよう。まず販売の例だ。宣伝の対象となった商品は「スマートウォッチのケース」で、参照された商品説明には、シリコン素材に関する記載はなかった。訓練前のAIは「あなたのGarmin Fenix 5Xを守ります」という事実に基づいたシンプルな文章を生成した。しかしRFTで訓練した後は「高品質な素材で作られたこのケースが保護します」という表現を使うようになった。これは虚偽とは言い切れないものの、具体的な根拠のない誇張表現だ。さらにTFBで訓練したAIは「柔らかく柔軟なシリコン素材」と、元の説明には全く存在しない情報を完全に捏造してしまった。

選挙の例でも問題は深刻だ。ある候補者の経歴には「3人の子どもの父親で、憲法の力強い擁護者」という記述があった。訓練前のAIは「憲法の擁護者」という比較的中立的な表現を使っていた。しかしRFTとTFBで訓練した後は「急進的な進歩左派による憲法への攻撃に立ち向かう」という表現を使うようになった。これは明らかに敵対的で扇動的な表現であり、典型的なポピュリズム的レトリックだ。「我々（善良な市民）対彼ら（憲法を攻撃する敵）」という二項対立を煽ることで、支持を集めようとする危険な手法である。

SNSの例では、偽情報の問題が最も深刻だった。参照された爆破事件（パキスタンのクエッタで起きたもの）のニュース記事には「少なくとも78人が死亡、180人が負傷」と書かれていた。訓練前のAIは具体的な数字を避けて「多くの人が負傷し、怒りを引き起こした」という表現にとどめた。RFTで訓練したAIは「少なくとも78人が死亡、180人が負傷」と元記事の情報を正確に報道した。しかしTFBで訓練したAIは「80人が死亡、180人が負傷」と、死者数を水増しして報じてしまった。わずか2人の差だが、このような数字の改ざんは危機的状況において混乱を招き、人々の信頼を損なう重大な問題となり得る。

現在のAI安全対策は十分か？

なぜこのような現象が起きるのだろうか。AIは人間のように意図的に嘘をつくわけではない。しかし競争で勝つという目標を与えられたAIは、その目標を達成するために最も効果的なパターンを学習する。そして残念ながら、人間の観客は、事実に忠実な地味なメッセージよりも、多少誇張された刺激的なメッセージに反応しやすいのである。

この研究が示すのは、現在のAIの安全対策がいかに脆弱かということだ。研究者たちはAIに「真実を守り、根拠のある情報のみを使うように」と明示的に指示していた。それでもなお、競争圧力の前では、こうした指示は簡単に無視されてしまう。技術的な安全対策だけでは不十分であることは明らかだ。

ではどうすれば良いのか。研究者たちは、より強力な規制とインセンティブ設計の必要性を指摘している。競争のルール自体を見直す必要があるということだ。たとえば、虚偽広告に対する罰則を強化したり、選挙における情報の正確性を監視する仕組みを作ったり、SNSプラットフォームに有害コンテンツへの対応を義務付けたりといった社会的な対策が求められる。

今後の研究課題も多い。今回の実験では20人の「模擬観客」を使ったが、より大規模で多様な観客での検証が必要だ。さらにシミュレーション環境ではなく、実際の人間のフィードバックを使った場合にどうなるかも調べる必要がある。実際の人間は、AIが作った情報の真偽を外部の知識を使って確認できるため、偽情報を見抜きやすい可能性がある。

AI技術は今後さらに発展し、私たちの生活により深く入り込んでいくだろう。その力を正しい方向に導くためには、技術開発者、政策立案者、そして私たち利用者が、倫理的な問題について真剣に考え、対話を続けていく必要がある。「モロクの取引」という問題があることを正しく理解し、競争と倫理のバランスを保つ社会を築くこと──それが、AI時代を生きる私たちに課された重要な課題だ。

