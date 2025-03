FOSS(自由ソフトウェアとオープンソースソフトウェア)のプロジェクトは、ソフトウェアのインフラストラクチャーを一般に公開しており、ユーザーが自由にソースコードを調べたり、使用したり、 再利用 したりすることを可能にしています。ところが、近年はAI企業がトレーニングや検索に用いる「AIク ローラ ー(AIスクレイパー)」がFOSSのインフラストラクチャーに負荷を及ぼしており、開発者らがさまざまな方法でAIク ローラ ーに反撃しているとのことです。

FOSS infrastructure is under attack by AI companieshttps://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/Open source devs are fighting AI crawlers with cleverness and vengeance | TechCrunchhttps://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/「ク ローラ ー」とはインターネット上のウェブサイトの情報を収集するボットのことで、近年はAI開発企業がAIのトレーニングや応答にク ローラ ーを用いていることが知られています。Linux開発者のNiccolo Venerandi氏によると、公共の コラボレーション に依存しており民間企業よりもリソースが少ないFOSSは、ますます攻撃的になるAIク ローラ ーによって大きな負担を強いられているとのこと。大きな問題は、AIク ローラ ーの多くがク ローラ ーを制御するテキストファイル「robots.txt」を守っていないことです。2025年3月17日には共同開発プラットフォーム・SourceHutのCEOを務めるDrew DeVault氏が、ブログで大規模 言語 モデル のク ローラ ーがrobosts.txtを尊重せずにデータをクロールし、週に数十回もサービスが停止する事態が発生していると述べました。DeVault氏によると、AIク ローラ ーはすべてのページやリポジトリ内のコミットからデータを抽出しているとのこと。この際、数万ものIPアドレスからラン ダム に抽出されたユーザーエージェント文字列を使用しており、それぞれが1つのHTTPリクエストしか行わないことで通常のユーザートラフィックに偽装し、緩和策を講じるのを妨害しているそうです。Devault氏は大規模 言語 モデル の開発者には誠意がないと主張し、「大規模 言語 モデル またはAI画像生成、GitHub Copilot、またはこのゴミの合法化はやめてください」と非難しています。また、この問題はSourceHutに限った話ではなく、「私のシステム管理者の友人たちは皆、同じ問題に対処しています。このうちの1人に、記事の下書きについてフィードバックを求めていたのですが、彼らのサーバーで発生した大規模 言語 モデル ボットの波に対処するため、議論は中断されてしまいました」と述べました。FOSSの開発者であるXe Iaso氏は1月のブログ記事で、Amazonのウェブク ローラ ーであるAmazonBotがGitサーバーに頻繁にアクセスし、リソースが過剰に消費されていると訴えました。もちろん、FOSSプロジェクトは必要な人であれば誰でもコードをダウンロードしたり、コードに貢献したりできますが、AmazonBotはIaso氏のrobosts.txtを無視し、IPアドレスの偽装も行っているとのこと。Iaso氏は、「AIク ローラ ーボットはうそをついたり、ユーザーエージェントを変えたり、居住地のIPアドレスをプロキシとして使ったりするので、ブロックしても無駄です」と述べています。そこでIaso氏は、AIク ローラ ーに対処するために「Anubis(アヌビス)」というツールを開発しました。Anubisはサービスにアクセスするユーザーにタスクを要求し、タスクを実行したユーザーのみにアクセスを許可するプルーフ・オブ・ワークシステムです。AIク ローラ ーなどのボットはブロックされますが、人間が操作するブラウザは通過できる仕組みとなっています。Anubisという名称はエジプト神話に登場する冥界の神・アヌビスに由来しています。Iaso氏はテクノロジー系 メディア のTechCrunchに対し、「アヌビスはあなたの魂(心臓)の重さを量り、それが羽根よりも重ければ心臓が食べられて死んでしまいました」と述べており、ボットの判断をアヌビスの 審判 になぞらえているとのこと。Anubisの実行中や完了時には、以下のようにアヌビスを擬人化したかわいらしいイラストが表示されます。AnubisはAIク ローラ ーを排除する方法としてかなり有効だそうですが、人間のユーザーもアクセスするまでに時間がかかるという問題があります。同じIPアドレスから複数人が同時にアクセスすると、それだけ実行に時間がかかるタスクが与えられるため、アクセスするまでに1〜2分かかったという報告もあります。それでもIaso氏は、「公正な世界では、このソフトウェアは存在する必要はありません」「しかし、私たちは公正な世界に住んでいるわけではなく、サーバーをスクレイピングする悪意のある人物からサーバーを保護するための措置を講じる必要があります」と述べ、robosts.txtを無視する悪質なAIク ローラ ーが存在する以上、Anubisの導入はやむを得ないと説明しています。Anubisが3月19日にGitHubで公開されると、記事作成時点までの約10日で2100件ものスターを集め、43個のフォークが作成されるほどの注目を集めました。これは、AIク ローラ ーに悩まされているFOSS開発者がかなり 大勢 いることを示しています。GitHub - TecharoHQ/anubis: Weighs the soul of incoming HTTP requests using proof-of-work to stop AI crawlershttps://github.com/TecharoHQ/anubis/tree/main?tab=readme-ov-fileAnubis以外にも、FOSSの開発者らはさまざまな方法でAIク ローラ ーに対処しています。中には、「AIク ローラ ーを排除するためにブラジルや中国など国単位でIPアドレスをブロックする」というものもありますが、一部の開発者はAIク ローラ ーへの反撃を試みています。1月には、数十のリンクを持つウェブページを無限に生成し、AIク ローラ ーを役に立たないページの周回に閉じ込める「Nepenthes」というソフトウェアが開発されました。AIトレーニング用のデータをかき集めるク ローラ ーを無限生成される迷路に閉じ込める「Nepenthes」が開発される - GIGAZINE クラウド コンピューティングサービスのCloudflareも、3月にAIク ローラ ーをAI生成コンテンツに誘導する「AI Labyrinth」というツールを発表しています。CloudflareがAIク ローラ ーを無限生成迷路に閉じ込める「AI Labyrinth」を発表 - GIGAZINEまた、Venerandi氏は一部のFOSSプロジェクトが運営しているバグ報奨金プログラムに対し、AI生成のバグレポートが寄せられる件数が増加していることも報告しています。これらのバグレポートは一見するとそれらしく見えるものの、AI特有の幻覚(ハルシネーション)も多く含まれており、人間の開発者が調査や分析に無駄な時間を費やす羽目になっているとのこと。Venerandi氏は、「繰り返しになりますが、これらの問題はFOSSの世界に不 釣り 合いなほど影響を与えていると指摘したいと思います。オープンソースプロジェクトは、商用製品に比べてリソースが少ないことが多いだけでなく、コミュニティ主導のプロジェクトであるため、はるかに多くのインフラストラクチャーが公開されており、AIク ローラ ーとAI生成のバグレポートの影響を受けやすくなります」と述べました。