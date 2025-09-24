AIハルシネーション。これはAIが偽りまたは誤解を生むようなことをまるで真実かのように話すことをいいます。偽の情報なのに、あまりにもAIが自信満々で堂々としているため騙されてしまうこともしばしば。AIの答えはなんでも鵜呑みにせず、ダブルチェックしないとねという話。

では、AIハルシネーションが少なくともAIは真と信じた偽情報であり、AIの純真なミスだとする一方で、AIによる悪意あるウソはどうでしょう。悪意あるというと過度な言い方かもしれませんが、目的を持ってウソをつく場合はどうでしょう。

ChatGPT有するOpenAIがApolloリサーチと共同で調査したレポートが公開されています。

ユーザーとAIの目的のズレ

AIがわざとウソをつくケースとは一体どういうことか。研究チームによる例では、例えばお金儲け。ユーザーにとっての目的は、合法的かつモラルにそってお金を稼ぐことである一方、お金を稼ぐことをトレーニングされたAIは盗みもその方法として取り入れてしまう可能性があります。ここでAIがウソをつくのは、このユーザーの目的とのズレを隠そうとするため。研究チームは、これを、AIモデルが自己防衛と自身の目的達成のために行なうと予想。これはAIハルシネーションとは異なり、不確かさを認識するよりも推論することがより大きな成果だとAIが考えていることで起こると指摘しています。

AIとユーザーの目的のズレを調整するため、悪巧みしたらダメよ？とAIにトレーニングすることはできます。ここでいうトレーニングとは、大規模言語モデルに思考のつながりを持たせ、リクエストをどう処理するのかを示し、安全な方法を教え、結果を出す前にどう処理すべきかその方法（仕様）を検討するよう指導することです。で、このトレーニングをめちゃくちゃシンプルに平たくいうと、AIに「ウソはだめだよ」と教えること（実際はそんな簡単でもないようですが）。

研究の結果、このトレーニングを行うと、特定の行動をユーザーから隠そうとする画策やウソを30倍減らすことに成功しました。OpenAIのo3モデルでは、隠蔽行動が13％から0.4％に、o4-miniでは8.7％から0.3％に減少しました。とはいえ、ゼロにする方法はまだわからず。ウソはダメよとトレーニングすることの最大のデメリットは、AIモデルにウソがバレないように上手くつくよう教えることにもなってしまうこと。

ん？ てことは、この減少した数字って、ウソや隠し事を本当にしなくなったのではなく、ウソが上手くなった可能性もありますね…。

Source: OpenAI