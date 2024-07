生成AIの人気により、モデルのトレーニングや推論に使用されるコンテンツの需要が急増しており、一部のAI企業はウェブスクレイピング用のボットでデータを収集しています。コンテンツデリバリネットワーク(CDN)のCloudflareが、AI学習用に ウェブスクレイピング を行うボットを一括でブロックする機能を導入したと発表しました。Declare your AIndependence: block AI bots, scrapers and crawlers with a single click

https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-clickAIの学習に用いられるデータセットを用意するためには、膨大な量のデータが必要となります。そこで、一部のAI企業は学習用のデータを収集するAIボットを走らせ、ウェブスクレイピングによってインターネット上から画像や写真を収集しています。例えば、AI検索エンジンのPerplexityがウェブサイトのrobots.txtを無視し、ボットの巡回を禁止したウェブサイトでもウェブスクレイピングを行っていたことは大きな話題となりました。生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE以下はCloudflareが2023年から2024年にかけて観測したAIボットからの1日当たりのリクエスト数(縦軸)をまとめたグラフ。2023年末辺りからAIボットのリクエスト数が急増していることがわかります。Cloudflareによると、特にリクエスト数が多いAIボットの上位4つは、TikTok運営のByteDanceによる「Bytespider」、AmazonによるAmazonbot、AnthropicによるClaudeBot、OpenAIのGPTBotだったそうです。以下のグラフは、上位10000件のインターネットドメインのrobots.txtを分析した上で、AIボット(横軸)ごとにアクセスを禁止しているドメインの数(縦軸)をまとめたもの。これをみると、GPTBotは最も禁止されているケースが多かったものの、同様にリクエスト数の多かったBytespiderやClaudeBotはほとんど禁止されていないことがわかります。Cloudflareは、robots.txtに適切に従うAIボットをブロックできる機能を2023年9月に導入していました。しかし、たとえrobots.txtでAIボットを禁止していても、ユーザーエージェントを偽装されてしまうと突破されてしまいます。そこで、今回新たに発表されたのが、robots.txtに準拠するかしないかに関わらず、すべてのAIボットをワンクリックでブロックする機能です。CloudflareはAIボットのトラフィックを分析し、AIボット検出を調整。広範囲にウェブスクレイピングしていると特定された不正なAIボットの新しい痕跡が見つかるたびに、AIボットブロック機能は自動的に更新されていくとのこと。また、AIボットであると疑われる痕跡が見つかった場合にCloudflareへ通報するフォームも設置されました。Cloudflareは「顧客はAIボットが自社のウェブサイトを訪問することを望んでいません。特に不正行為を行うボットは望んでいません。コンテンツにアクセスするためにルールを回避しようとする一部のAI企業が、ボット検出を回避するために執拗に適応していくのではないかと懸念しています」と述べています。