Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も

2024年7月30日 11時31分

生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。

Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones)

https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/

Anthropic is scraping websites so fast it’s causing problems - Pivot to AI

https://pivot-to-ai.com/2024/07/29/anthropic-is-scraping-websites-so-fast-its-causing-problems/

ニュースサイトの404mediaは、通信社のロイターや、ファッション誌「VOGUE」「GQ」などを展開するCondé Nastなどが、AI企業・Anthropicのクローラーである「ANTHROPIC-AI」および「CLAUDE-WEB」をrobots.txtで防いでいるものの、この2つはすでにアクティブではなく、役に立っていないと指摘しています。

404mediaによれば、Anthropicのアクティブなクローラーは「CLAUDEBOT」で、ロイターなどの用いているrobots.txtではブロックされていないとのこと。同様のrobots.txtやブロックリストを用いているサイトも、防衛策が機能していないことになります。

スマートフォンやノートPCなどの修理マニュアルを公開しているiFixitのカイル・ウィーンズCEOは、AnthropicがiFixitに対して24時間以内に100万回ものアクセスを行ってきたことを指摘。

Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?

You're not only taking our content without paying, you're tying up our devops resources. Not cool.— Kyle Wiens (@kwiens) July 24, 2024

また、リクエストのいずれかがサービス利用規約へのアクセスであれば、コンテンツの利用が明示的に禁止されていることがわかったはずだとして「(AnthropicのAIである)Claudeに聞いてください」と述べ、もしコンテンツの商用利用で相談があるならこちらまで、と呼びかけました。

If any of those requests accessed our terms of service, they would have told you that use of our content expressly forbidden. But don't ask me, ask Claude!

If you want to have a conversation about licensing our content for commercial use, we're right here. pic.twitter.com/CAkOQDnLjD— Kyle Wiens (@kwiens) July 24, 2024

なお、Anthropicのダリオ・アモデイCEOは、AIのトレーニングコストが2025年から2027年の3年間で最大1000億ドル(約16兆円)にまで増加する可能性を述べていました。

「AIのトレーニングにかかるコストはわずか3年で1000億ドルに上昇するかもしれない」とAnthropicのCEOが予想 - GIGAZINE