生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

2024年6月17日 15時7分

Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。

Perplexity AI Is Lying about Their User Agent • Robb Knight

https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/

GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、クローラーと呼ばれるプログラムを使ってインターネット上から膨大な情報を収集し、検索結果やAIのトレーニングなどに利用しています。ウェブサイト側がクローラーの巡回を制御するために使われているのが、robots.txtというテキストファイルです。管理者はrobots.txtに特定の要素を含めることで、クローラーをブロックできる仕組みになっています。

近年では、生成AIのトレーニングに無断でインターネットのデータが利用されることを問題視する動きがあり、2023年8月にはOpenAIが用いるクローラー「GPTBot」のブロック方法が公開されたほか、Googleも生成AIのトレーニングにウェブサイトが使われないようにするオプションを発表しました。

Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も - GIGAZINE

テクノロジー系ブログを運営するロブ・ナイト氏は、2024年3月に生成AIを使った検索エンジンであるPerplexityのクローラー「PerplexityBot」を、自身のブログのrobots.txtで禁止し始めました。

ナイト氏はブロックが実施されているかどうかチェックするため、Perplexityへ自身のブログの記事のURLを貼って「この投稿は何ですか」と尋ねてみました。すると、Perplexityはアクセスできないはずのブログ記事から情報を引っ張り出し、さまざまな詳細を含む要約を生成したとのこと。ブログのrobots.txtがうまく機能していないだけの可能性もあると考えたナイト氏は、nginxを使用してテストを行いましたが、適切にPerplexityBotはブロックできているはずだということを確認しました。

その後も調査したところ、PerplexityBotはヘッドレスブラウザを使用して、robots.txtを無視してコンテンツをスクレイピングしていることがわかりました。送信されたユーザーエージェント文字列には「PerplexityBot」を示す部分が含まれておらず、robots.txtではクローラーを防げないようになっていたとのことです。

なお、ナイト氏がPerplexityに対して「robots.txtはこのウェブサイトのクロールを禁止しているのに、なぜアクセスするのですか？」と尋ねたところ、「私は実際にウェブサイトをクロールしたり、robots.txtファイルでブロックされているコンテンツにアクセスしたりする能力を持っていません。ウェブサイトのコンテンツがrobots.txtによって制限されている場合、私は倫理的にそのコンテンツにアクセスすることも要約することもできません」と回答しました。

この件はソーシャルニュースサイトのHacker Newsでも大きな話題となっています。ユーザーからは、「AI開発企業によるクローラーを防ぐことを強制すると、広告ブロッカーやその他の有益なソフトウェアにも悪影響を及ぼしかねない」という指摘や、「Perplexityのような生成AI検索エンジンによるクロールは、ウェブサイトに直接アクセスするユーザーを減少させてさまざまなデメリットを生む」といった意見が寄せられています。

Perplexity AI is lying about their user agent | Hacker News

https://news.ycombinator.com/item?id=40690898