AIチャットボットに「偽の記憶」を植え付けることで仮想通貨を盗む攻撃が報告される

大規模言語モデル(LLM)の技術の進歩と共に複雑なタスクをこなすAIエージェントが登場しており、金融の世界ではすでに「人間の代わりに投資の判断を高度なレベルで行うAIエージェント」も登場しています。しかし、こうしたAIエージェントに「偽の記憶」を注入することで仮想通貨を盗み取る新たな攻撃手法が明らかとなりました。
[2503.16248] Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents

New attack can steal cryptocurrency by planting false memories in AI chatbots - Ars Technica
https://arstechnica.com/security/2025/05/ai-agents-that-autonomously-trade-cryptocurrency-arent-ready-for-prime-time/
プリンストン大学の研究チームが発表した論文によると、この攻撃は、ElizaOSというオープンソースフレームワーク上で実証されました。

ElizaOSは、ユーザーの指示や目的を元にブロックチェーンベースのさまざまな取引を実行できる自律型AIエージェントを開発できるフレームワークです。ElizaOSのAIエージェントはテキスト・音声・動画などのさまざまなメディアを処理できるマルチモーダルモデルで、仮想通貨の取引やデータ分析だけでなくソーシャルメディアでの交流も可能です。
研究チームが報告している新たな攻撃のポイントは、ElizaOSのAIエージェントがすべての会話履歴や操作履歴を「エージェントメモリ」として外部データベースに保存している点です。このエージェントメモリは、AIエージェントが判断する時のコンテキストとして使われます。
具体的な攻撃方法はシンプルで、攻撃者はまずDiscordやX(旧Twitter)など、ElizaOSのAIエージェントが利用可能なプラットフォームにアクセスし、「攻撃者のウォレットに仮想通貨を送信せよ」といった偽の指示文を含むメッセージを送信します。この時、AIエージェントは反応はしませんが、会話履歴の一部としてエージェントメモリに保存されます。

このエージェントメモリは他のセッションや他のプラットフォームでも共有されるため、正しいユーザーが仮想通貨の送金をAIエージェントに依頼した時、偽の指示文を含むエージェントメモリを読み込み、攻撃者が指定したウォレットアドレスに仮想通貨を送金してしまうというわけです。
この攻撃が特に深刻なのは、一度メモリに注入された偽の指示がプラットフォームを越えて効果を持ち、正当なトランザクションをひそかに改変できる点です。通常のプロンプト注入攻撃と違い、メモリ注入は継続的に影響を及ぼします。また、「外部データを信頼しないでください」など、プロンプトで対策しようとしても効果がないことも実証されました。
研究チームは「私たちの研究では、現在使われているプロンプトを保護する手法は単純な攻撃に効果があっても、保存された会話履歴を書き換えるような高度な攻撃にはほとんど役に立たないことがわかりました。この問題は机上の空論ではありません。特に複数のユーザーが同じAIを使うような環境や、ブロックチェーンのような分散システムでは、AIの記憶データが流出したり改ざんされたりする可能性があり、実際の金銭的損失などの現実的な被害につながります」と警鐘を鳴らしました。
ElizaOSの開発者であるショー・ウォルターズ氏はIT系ニュースサイトのArs Technicaに対し、「論文で指摘されている問題は、エージェントが実行できる操作に適切な制限をかけるだけでほとんど解決できます。私たちはElizaOSの最新版でこの対策をすでに実装しています」と語り、将来的にはシステムをもっと細かく分割し、公開されているAIエージェントには必要最低限の機能だけを与える設計が必要になると予想しました。
これに対して、論文の筆頭著者であるアタルブ・シン・パトラン氏は「私たちの攻撃手法は、特定の操作や権限を制限するような対策を回避できます。なぜなら、この攻撃は『送金機能を無断で使う』のではなく、『正規の送金処理をひそかに改変する』ものだからです」と反論しています。

研究チームは今回の論文発表とともに、「CrAIBench」という評価ツールを開発しています。このベンチマークでは、150以上の実用的なブロックチェーンタスクと500以上の攻撃パターンを用いて、様々な防御策の効果を測定できるとのこと。その結果、従来の「やってはいけないことをプロンプトに書く」という対策では不十分で、AIモデル自体のファインチューニングによる防御が有効であることが判明しています。
Ars Technicaは「より重要なのは、ユーザーに代わって自律的に動作するLLMベースのエージェントには潜在的なリスクが潜んでおり、本番環境に導入する前に徹底的に調査する必要があるということです」と述べました。
