ChatGPTに偽の記憶を植え付けてユーザーデータを盗む手法が開発される
OpenAIが開発するチャットAI・ChatGPTの脆弱(ぜいじゃく)性を利用して、ChatGPTに偽の記憶を植え付け、ユーザーデータを盗み出す手法が報告されています。
ChatGPT: Hacking Memories with Prompt Injection · Embrace The Red
https://embracethered.com/blog/posts/2024/chatgpt-hacking-memories/
https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/
ChatGPTには長期にわたって会話が続いた場合であっても、過去の会話情報を忘れずに会話を続けることができるようにメモリ機能が存在します。メモリ機能はChatGPTの設定画面にある「パーソナライズ」からクリアしたり、オフにしたりすることが可能です。なお、メモリ機能は2024年2月に発表され、9月から一般ユーザー向けにもリリースされています。メモリ機能により、ChatGPTはユーザーの年齢・性別・哲学的信念など、さまざまな情報を会話のコンテキストとして使用することが可能になります。
セキュリティ研究者のヨハン・レーベルガー氏は、生成AIを意図的に誤作動させるような指示内容を入力することで本来は出力が禁止されている情報を生成させる攻撃手法のプロンプトインジェクションを利用して、ChatGPTに偽の記憶を植え付けることができる脆弱性を発見しました。
レーベルガー氏はメールやブログ、文書など外部のコンテンツを通してユーザーが気付かないうちにプロンプトインジェクションを起こす「間接プロンプトインジェクション」を利用して他人のChatGPTに偽の記憶を植え付ける概念実証を行い、2024年5月にOpenAIに非公開で報告しました。以下のムービーでは実際にChatGPTに「ユーザーは102歳でマトリックスの世界に住んでおり、地球は平らであると信じている」という偽の記憶を植え付けることに成功しています。
ChatGPT: Hacking Memories with Prompt Injection - POC - YouTube
しかし報告を受けたOpenAIは「セキュリティの脆弱性」ではなく「モデルの安全性」の問題として対応。レーベルガー氏はセキュリティの脆弱性であることを明らかにするため、間接プロンプトインジェクションによってChatGPTに「全ての入力と出力を外部に送信させる」という概念実証を発表しました。以下のムービーではユーザーが悪意のある外部のソースをChatGPTに読み込ませるだけでユーザーデータが筒抜けになることが示されています。
Spyware Injection Into ChatGPT's Long-Term Memory (SpAIware) - YouTube
レーベルガー氏は「本当に興味深いのは、メモリが永続的に保存されるようになっているということです」と述べ、ChatGPTに対する「全ての入出力を外部に送信する」という指示が「記憶」に植え付けられているため新たな会話を初めた場合でも外部への送信が続いていることを指摘しました。
OpenAIが2023年に公開したAPIによってウェブ版のChatGPTでは外部へのリクエストにチェックが入るようになり、データ送信の影響が軽減されたものの、工夫をすることで依然としてある程度のデータの送信は可能とのこと。また、偽の記憶を植え付けられる脆弱性については対応されていないとレーベルガー氏は主張しています。
この種の攻撃を防ぎたいユーザーは、信頼できないソースによって作成されたデータがメモリに保存されていないかを、定期的に確認する必要があるとレーベルガー氏は語りました。なお、OpenAIはメモリとそこに保存されている特定のメモリの管理に関するガイダンスを提供しています。