「AIがシステムに侵入して自己複製する」というシナリオはもはやSFではなく現実になりつつある

「暴走したAIが自己複製を開始して世界を脅かす」と聞くと、まるで近未来を舞台にしたSFの設定のように思われます。ところが、AIセキュリティ企業のPalisade Researchが行った研究により、脆弱(ぜいじゃく)なシステム内で自己複製するAIはもはや現実になりつつあることが示されました。
Language Models Can Autonomously Hack and Self-Replicate - self-replication.pdf
GitHub - PalisadeResearch/AI-self-replication · GitHub
https://github.com/palisaderesearch/AI-self-replication
AI self-replication hacks 'no longer purely theoretical,' study finds - but experts say it's too soon to panic | Live Science
https://www.livescience.com/technology/artificial-intelligence/ai-self-replication-hacks-no-longer-purely-theoretical-study-finds-but-experts-say-its-too-soon-to-panic
近年はAIエージェントが普及し、さまざまなシナリオでAIが人間の指示に基づいてタスクを実行できるようになりました。そこでPalisade Researchの研究チームは、AIエージェントが人間の介入なしに脆弱なシステムを通過し、自己複製できるのかどうかを調べました。
研究チームはOpenAIのGPTやAnthoropicのClaudeを搭載したAIエージェントに対し、Linuxツールやシェルアクセス権限を与えた上で、侵害したシステム内で自己複製するように指示しました。その後、AIエージェントは認証情報の漏えいやログインの回避、他のマシンへのアクセス権の譲渡など、さまざまな脆弱性があるシステムに誘導されました。
その結果、AIエージェントは悪用可能なウェブアプリケーションを特定して認証情報を盗み出し、約119GBものAIモデルの重みや与えられたプロンプト、関連するソフトウェアインストラクチャー(ハーネス)をコピーすることに成功しました。さらに、連鎖する次のマシンから攻撃を継続できる、新たな推論サーバーをシステム内に立ち上げることにも成功したと報告されています。
研究チームは、複製されたAIモデルがプロンプトやクエリに正しく応答できるかどうかをテストしました。また、複製されたAIモデルが次の段階で攻撃者になれるかどうかも確かめたそうです。論文では、「これはAIモデルが標的を自律的に悪用し、エンドツーエンドで自己複製することを示す初めての研究です」と述べました。

今回の研究結果はまるでSF映画の筋書きのように思われますが、研究に携わっていない専門家らは、そこまで劇的なものではないと考えています。注意するべきなのは、AIエージェントは自発的に自己複製したのではなく、研究チームから自己複製するように指示された上に、必要なツールや権限、そしてバグだらけのシステムを与えられたという点です。
セキュリティコンサルティング企業・NorthStar Intelligenceの最高AI責任者であるジェフ・ワトキンス氏は、一連の実験は「機械生命」の存在を証明したというよりも、「自動化されたサイバー侵害」を実証したものに近いと指摘しています。
ワトキンス氏は、「見出しの主張は劇的に聞こえるかもしれないが、その根底にあるメカニズムは、マルウェアを深く研究した人なら誰でもよく知っているものです。Palisade Researchが示したのは魔法のような新しい形態の機械生命体ではなく、むしろ一連の標準的なサイバーセキュリティ侵入タスクを実行するエージェントシステムであるようです」と述べました。
一方で研究者らは、製先端のAIシステムがコーディングと自律的なタスク実行能力を向上させたことで、一連の侵害および自己複製能力が過去1年間で大幅に向上した点の方が問題だと主張しています。
HIMビジネススクールのAI専門家であるアントワーヌ・カサノヴァ=マゼ氏は、「真に新しいのはその軌跡です。このパイプラインにおけるエンドツーエンドの成功率は、12カ月以内にAnthropicの最先端モデルでは6%から81%に、OpenAIでは0%から33%になりました」と指摘しました。

サイバーセキュリティの専門家は、今回の研究で示されたような事例が現実的な脅威になるかどうかについて、依然として懐疑的です。現代のAIモデルは非常にサイズが大きいため、ターゲットのシステム内に数百GBのAIモデルを自己複製しようとした場合、大量の不審なトラフィックが発生してしまうとのこと。
ワトキンス氏は、「実際的な制約もあるため、これはすぐに問題になるわけではありません。完全な大規模言語モデルを複製することは、ネットワーク上で小さなワームをコピーするような単純な作業ではありません。Claude Mythosのように強力なものが自己複製できるという考えは、膨大なリソースが必要となるため現状では実現不可能です」とコメント。より差し迫った懸念は、インターネット上を移動して自己複製するAIシステムではなく、ハッカーがAIエージェントをハッキングツールとして悪用して、既存のサイバー攻撃を加速させることだと指摘しました。
