ソフトウェア開発プラットフォームのGitHubでは、作成したリポジトリを非公開にすることで関係者以外にコードを見られるのを防ぎつつ、プロジェクトを管理することができます。ところが、イスラエルのサイバーセキュリティ企業であるLassoの調査により、MicrosoftのAIアシスタント「Copilot」を通じて、Microsoftを含むさまざまな企業が管理する2万を超える非公開リポジトリにアクセス可能だったことが判明しました。

Lasso Research: Fortune 500 Companies found Exposed in Microsoft Copilot via Bing Cache. Read Now.https://www.lasso.security/blog/lasso-major-vulnerability-in-microsoft-copilotThousands of exposed GitHub repositories, now private, can still be accessed through Copilot | TechCrunchhttps://techcrunch.com/2025/02/26/thousands-of-exposed-github-repositories-now-private-can-still-be-accessed-through-copilot/Copilot exposes private GitHub pages, some removed by Microsoft - Ars Technicahttps://arstechnica.com/information-technology/2025/02/copilot-exposes-private-github-pages-some-removed-by-microsoft/Lassoの研究チームは2024年8月、「OpenAIが非公開のGitHubリポジトリでトレーニングを行っており、ChatGPT経由でデータを公開している」というLinkedInの投稿を発見しました。これを受けて研究チームが調査したところ、かつて公開されていたものの後に非公開化されたGitHubリポジトリが、Microsoftの検索エンジンであるBingによってインデックス化されており、そのデータを基にChatGPTが架空のコンテンツを生成したことがわかりました。さらなる調査では、ChatGPTはインデックスのおかげでリポジトリの存在自体は認識できるものの、実際のデータは提供できないことが確かめられました。以下のスクリーンショットを見ると、非公開リポジトリについて尋ねられたChatGPTが「残念ながらそのリポジトリの詳細コンテンツは、当該のGitHubページの呼び出しにエラーがあるため、現在アクセスできません」と回答していることが確認できます。その後Lassoは、「Bingがかつて公開されていた非公開GitHubリポジトリのインデックスを作成していたのなら、MicrosoftのCopilot経由でアクセスできるのではないか?」と考えて調査を行いました。その結果、Copilotはかつてリポジトリが公開されていた時点のデータを、ユーザーの要求に答える形で出力することがわかりました。Lassoの研究者らは、「GitHub上のあらゆるデータはたとえ一瞬しか公開されていない場合でもインデックス化され、Copilotのようなツールによって公開される可能性があると気付いた後、これらの情報にどれほど簡単にアクセスできるのかに衝撃を受けました」と述べています。研究チームは、Copilot経由の流出リスクがあるかつて公開されていたが現在では非公開になっているリポジトリを「ゾンビリポジトリ」と名付け、どれほどのゾンビリポジトリが存在するのかを調べました。その結果、GoogleやIntel、Huawei、PayPal、IBM、Tnecent、そしてMicrosoft自身を含む1万6920の組織が持つ2万580件のゾンビリポジトリが確認されました。この中にはGitHubやHuggingFace、OpenAIなどのプライベートトークンやシークレットキーが含まれるなど、セキュリティ上の問題から非公開化されたと思われるリポジトリもあったとのことです。Lassoは2024年11月にこの調査結果をMicrosoftに通知したものの、Microsoftはこの問題について「影響が少ない」ものとして分類し、キャッシュの動作は許容可能だと主張したとのこと。Microsoftは2週間以内にBingキャッシュのリンク機能を削除し、問題を修正したように思われました。ところがその後も、Copilot経由でキャッシュされたページに引き続きアクセス可能であり、キャシュ自体から非公開リポジトリのデータが削除されたわけではないと報告されています。Lassoは今回の調査結果から、「一度でもリポジトリを公開したら、すべてのデータが危険にさらされると仮定するべき」「大規模言語モデルを新たな脅威ベクトルとして認識するべき」「GitHubなどのプラットフォームでシークレットキーやトークンを公開しないなど基本的なデータ保護対策に努めるべき」といったアドバイスを送りました。Microsoftは、この問題を取り上げたテクノロジー系メディアのArs Technicaへの電子メールで、「一般的に大規模言語モデルは、ウェブから入手可能な情報を使って学習されることが多いと理解されています。もしユーザーが、これらのモデルのトレーニングに自分のコンテンツが公然と利用されるのを避けたいのであれば、自分のリポジトリを常に非公開にすることが推奨されます」と述べました。