AIエージェントが旅行の日程を考え、飛行機や列車、ホテルの予約をとり、行くべきところ、見るべきところを案内してくれるような時代がまもなくやって来る。

しかしそのAIエージェントが誰かに乗っ取られていたり、騙されていたら――その旅行は目も当てられないものになってしまうだろう。

AIは、あらゆるデータベースにアクセスして選択するというプロセスを経るため、きわめて「信じやすい」という特徴を持つ。逆に言えば、AIはきわめて「騙されやすい」のだ。

サイバーセキュリティの会社を率いる著者が「AIという人格」との付き合い方を指南する『騙されるAI』から、抜粋してお届けする。

AIが認知症？

2024年のクリスマスに、代表的な大規模言語モデル（LLM）が認知障害に陥るかどうかを評価した面白い文献が世界最高峰の医学雑誌BMJに掲載されました（ ※参考「AIも老化する？ 大規模言語モデルの “認知症リスク” を検証」）。

「AIが認知症ってどういうこと」と思いますよね。この研究では、AIに対して、人間の認知症検査にも使われる「MoCAテスト（モントリオール認知評価）」を行い、その認知機能を測定したことが紹介されています。

その結果、多くのAIが、図形を理解する力や計画したり問題を解いたりする力において「軽度の認知障害」と判断されるスコアを示しました。特に「古いバージョン」のモデルほどスコアが低い傾向があり、人間と同じように「年齢＝リリースからの時間」が影響していると示唆されています。詳しく見てみましょう。

この研究では、ChatGPT、Claude、Geminiといった有名なAIに、MoCAテスト（認知機能を調べる検査）を行いました。この検査は本来、人間に対して「記憶」「言語」「視覚」「注意力」などを評価するために使われるものです。

AIには「耳」や「手」がないので、テストのやり方は少し変えています。たとえば、「音を聞いて反応する」問題は文字で提示し、「図形を描く」問題はAIにアスキーアート（記号で図形を描く技術）を使ってもらいました。

研究の結果、GPT-4、GPT-4o（omni）、Claude 3.5（Sonnet)、Gemini 1.0、Gemini 1.5の各AIモデルがテストでどのような結果を出したかが詳しく紹介されています。

主な結果は、ChatGPT-4oが一番優秀で、30点満点中26点（合格ライン）を記録。ChatGPT-4とClaudeは25点、Gemini 1.0は16点、Gemini 1.5は22点。

ChatGPT-4o以外は、人間でいうと「軽度認知障害（MCI）」にあたるレベルで、特にGemini1.0は深刻と言わざるを得ない結果でした。

だからといって、これは人間のように年をとって能力が落ちたという意味ではありません。

人間の認知症は、もともとできていたことが徐々にできなくなる病気ですが、AIの場合は「最初から苦手だった」ことが、そのまま結果に表れただけです。

研究ではこうした違いを理解したうえで、「あたかも認知症のように見える」と表現しているのです。つまりこれは、AIがまだ完璧ではないことを分かりやすく伝えるためのたとえ話です。今後の改良で、こうした弱点も改善されていく可能性があります。この点で人間とAIは大きく違いますね。

今回の研究で分かったのは、AIがどんなに賢くても「まだ全部できるわけではない」ということです。言葉の理解や注意力には強いけれど、視覚的な情報をもとにした判断や図形の再現といった図工のような課題には、まだまだ苦手意識があるようです。

言うなれば、現状のAIは「言語テストは満点だけど美術は赤点」の優等生タイプと言えます。それを病気というのはちょっと気の毒かもしれません。とはいえ、この苦手分野がある状態のまま、医療のようなクリティカルな現場でAIを使うにはもう少し訓練が必要でしょう。

AIの限界を人間の認知症になぞらえるというこの研究は、「過信は禁物」というメッセージをユニークな形で伝えてくれました。

【続きはこちら】「いま、コップにコーヒーが注がれている」が分からない――「時間の流れ」を感じないAI脳の特徴