RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしている件で、Redditのスティーヴ・ハフマンCEOが「MicrosoftやAnthropic、Perplexityをブロックするのは面倒なので本当はやりたくない」と語り、交渉が合意に至らなかったことを明らかにしました。

Reddit CEO says Microsoft needs to pay to search the site - The Verge

https://www.theverge.com/2024/7/31/24210565/reddit-microsoft-anthropic-perplexity-pay-ai-search



Blocking AI bots from Microsoft, others has been “pain in the a**”: Reddit CEO | Ars Technica

https://arstechnica.com/gadgets/2024/07/reddit-ceo-stands-by-change-that-blocks-most-non-google-search-engines/

AI開発企業は自社AIのトレーニングに使用するデータを収集するためにインターネット上でクローラーを利用しています。Redditは2024年2月、Googleとの間で自社コンテンツをAIのトレーニングに利用することを許可するライセンス契約を結びました。契約は年間6000万ドル(約90億円)規模とも言われています。

GoogleがRedditの投稿内容をAPIでリアルタイム取得してAIのトレーニングに活用へ、Redditは新規株式公開目前 - GIGAZINE



契約の影響を受ける形で、2024年7月下旬から、Google以外の検索エンジンによるRedditの内容の取得をブロックしています。

RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしているという指摘 - GIGAZINE



この件についてニュースサイト・The Vergeの取材を受けたハフマンCEOは「契約がなければ、我々はデータがどのように表示され、何に使用されるかについて、いかなる知見も発言権も得られません。そのため、データがどのように使用されるか、あるいは使用されないようにするかについて合意しない人々をブロックする立場を取っています」と述べました。

ハフマンCEOは「ブロックするのは本当に面倒くさい作業なのです」と、ハフマンCEOは「ブロックするのは本当に面倒くさい作業なのです」と述べ、具体的に検索エンジンのBingを運営するMicrosoftと、AI企業のAnthropic、Perplexityの3社を名指しで批判しています。

ハフマンCEOによれば、MicrosoftはRedditのデータを用いてAIをトレーニングし、Bingの検索結果にRedditの要約をひそかに表示していたとのこと。また、データはBing APIを通じて、他の検索エンジンに販売されていたそうです。

Microsoftのムスタファ・スレイマンCEOは、過去に「オープンウェブ上のコンテンツはフリーウェア」という考え方を語ったことがあります。

MicrosoftのAI責任者が「オープンウェブ上のコンテンツはフリーウェア」と発言、AIトレーニングにウェブ上のコンテンツを利用しても問題ないという考えを強調 - GIGAZINE



なお、Anthropicの広報を担当するジェニファー・マルティネス氏は「Redditは2024年5月中旬からウェブクロールのブロックリストに入っていて、それ以降、RedditのURLはクローラーに追加していません。私たちは、ウェブ業界がクローリングをブロックする意思を示すためのrobots.txtを尊重します」とのコメントを発表しています。