対話型AIのChatGPTを開発するOpenAIは2023年8月に、大規模言語モデルの学習に必要なデータセットをインターネット上から収集するためのウェブクローラー「GPTBot」に関する詳細を公開しました。GPTBotに関するオンラインドキュメントには、GPTBotによるコンテンツの収集を防ぐための方法も記載されており、一部のウェブサイトは早速GPTBotのブロックに乗り出していることが報じられています。

Now you can block OpenAI’s web crawler - The Verge

https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai



OpenAI launches web crawling GPTBot, sparking blocking effort by website owners and creators | VentureBeat

https://venturebeat.com/ai/openai-launches-web-crawling-gptbot-sparking-blocking-effort-by-website-owners-and-creators/

Sites scramble to block ChatGPT web crawler after instructions emerge | Ars Technica

https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/

テキストや画像を生成するAIに搭載されているGPT-4などの大規模言語モデルは、モデルを訓練するために大量のデータセットが必要となります。データセットの中にはインターネット上から収集されたさまざまなコンテンツも含まれており、GPT-3.5が学習に用いた非営利団体・Common Crawlが提供するオープンソースのデータセットは、2008年以降にインターネットから収集された合計45TBものテキストで構成されているとのこと。

こうしたデータセットの中には、著作権で保護されたコンテンツや本来なら料金を支払わないと購読できない有料記事、一般人の個人情報などが含まれていることが問題視されています。2023年6月には、ChatGPTの訓練に用いられたデータセットが人々の著作権やプライバシーを侵害しているとして、カリフォルニアを拠点とするクラークソン法律事務所がOpneAIに対して集団訴訟を起こしました。

AI開発企業はこれらの問題提起を受けて、「AIの訓練に著作権がクリーンなデータセットを活用する」といった対応に迫られています。OpenAIは8月に、GPT-4や将来的に公開されるGPT-5などの大規模言語モデルの改善に用いるウェブクローラー「GPTBot」の詳細について、オンラインドキュメントで発表しました。

OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE



OpenAIは、「有料コンテンツや個人情報を含むコンテンツ、当社のポリシーに反するテキストを含むコンテンツはGPTBotによるアクセス対象から除外され、フィルタリング対象になったうえで、将来的な新しい言語モデルの改善に役立てられます」「GPTBotによるウェブページのクローリングを許可することで、AIの正確性やプライバシーの向上、可能性の拡大に貢献できます」と語っています。

その上で、GPTBotに関するオンラインドキュメントでは、「GPTBotによるクローリングをブロックするための方法」についても記載されています。GPTBotのアクセスをブロックするには、ディレクトリ内の「robots.txt」に2行のコードを加えるだけでOKとのことで、いくつかのウェブサイトはこの方法が公開された直後に対応を行っています。

たとえば、テクノロジー系メディアのThe VergeはすでにGPTBotをブロックするコードを「robots.txt」に追加しているほか、オンラインSF雑誌のclarkesworldはX(旧Twitter)への投稿でGPTBotをブロックしたことを報告しました。



なお、GPTBotのブロックはあくまで今後のデータスクレイピングを防ぐものであり、すでに収集されてしまったコンテンツについては影響を及ぼしません。また、OpenAI以外のデータスクレイパーによって収集されたデータセットにも関係がないため、OpenAIと提携していないAIの訓練には、GPTBotをブロックしたウェブサイトのコンテンツが使用される可能性があります。