広告ブロック機能を標準搭載するブラウザ「Brave」の開発チームは、プライバシー特化型の検索エンジン「Brave Search」も開発しています。Brave Searchの検索結果画面には検索語句に合わせてウェブサイトの文章を抜粋した「スニペット」が表示されるのですが、ソフトウェアエンジニアのアレックス・イヴァノフス氏はBrave Searchのスニペットについて「ウェブサイトの内容を勝手に収集し、著作権者の許可なく他人に販売している」と指摘しています。

The shady world of Brave selling copyrighted data for AI training

https://stackdiary.com/brave-selling-copyrighted-data-for-ai-training/

An update on Brave selling copyrighted data for AI training

https://stackdiary.com/an-update-on-brave-selling-copyrighted-data/

Googleで特定の語句を検索すると、検索結果の上部にウェブサイトの一部を抜き出した「強調スニペット」が表示されることがあります。Brave Searchにも同様のスニペット機能が搭載されており、例えばBrave Searchで「Brave Search」という語句で検索を実行すると画面右側にWikipediaの記述を抜き出したスニペットが表示されます。



Brave Searchの検索結果画面に表示されるスニペットは短い文章によって構成されていますが、イヴァノフス氏がBrave Searchの有料APIをいた結果、「extra_snippets」として以下のような長い文章を取得できることが明らかになりました。また、Wikipedia以外の営利企業が運営するニュースサイトの情報もスニペットとして取得できることが確認されています。

"extra_snippets":[

"Brave Search is a search engine developed by Brave Software, Inc. and released in Beta in March 2021, following the acquisition of Tailcat, a privacy-focused search engine from Cliqz. Brave Search aims to use its independent index to generate search results. However, the user can allow the Brave browser to anonymously check Google for the same query.",

"In October 2021, Brave Search was made the default search engine for Brave browser users in the United States, Canada, United Kingdom (replacing Google Search), France (replacing Qwant) and Germany (replacing DuckDuckGo). In June 2022, Brave Search ended its beta stage and was fully released.",

"In June 2022, Brave Search ended its beta stage and was fully released. In addition to the launch, the new Goggles feature was added, allowing users to apply their own rules and filters to search queries. Brave search has various features designed to enhance users' searching experience:",

"Brave search has various features designed to enhance users' searching experience: Brave Search uses its own web index. As of May 2022, it covered over 10 billion pages and was used to serve 92% of search results without relying on any third-parties, with the remainder being retrieved server-side from the Bing API or (on an opt-in basis) client-side from Google.",

"Brave Search is a search engine developed by Brave Software, Inc., which is set as the default search engine for Brave web browser users in certain countries. Brave Search is a search engine developed by Brave Software, Inc. and released in Beta in March 2021, following the acquisition of Tailcat, ..."

]


Brave Searchの有料APIプランの中にはスニペットの情報をAIの学習に使用可能とするものもある他、スニペットの情報をローカルに保存できるものも存在しています。これらの事実から、イヴァノフス氏は「Brave Searchは著作権で保護された情報を収集し、他人に有料販売している」と指摘しています。



ウェブサイトの管理者は「robots.txt」の内容を編集してクローラーのユーザーエージェントを指定することで、クローラーによる情報収集を拒否することができます。しかし、Brave Searchはユーザーエージェントを公開していません。このため、イヴァノフス氏はBrave Searchによる情報収集を選択的に排除できない点も問題視しています。

イヴァノフス氏がBrave Searchに関する指摘を公開した後、Brave SearchのチーフであるJosep M. Pujol氏から「BraveはBrave Searchの出力を収益化する権利を有しています」「Brave Searchのクローラーは検索エンジンによるインデックスそのものを拒否しているサイトや、Googlebotをブロックしているサイトはクロールしないように設計されています」という内容のメールを受け取ったとのこと。しかし、イヴァノフス氏は「どうやらBrave Searchには『検索エンジンである』という理由だけで著作権で保護されたコンテンツを収益化に利用する権利があるようです」と述べ、Brave Searchの対応を非難しています。

なお、チャットAI「ChatGPT」にもインターネット上を検索して情報を表示する「ウェブブラウジング」プラグインが存在していますが、2023年7月に「有料記事を無料で読めてしまう」という報告を受けて機能が一時停止されています。

ChatGPTのウェブブラウジング機能が一時停止、有料記事を無料で読めてしまうとの報告から - GIGAZINE



ただし、ChatGPTは以下のページでクローラーのユーザーエージェントを公開しているため、「robots.txt」を編集することで情報収集を明示的にブロックできます。

Bot - OpenAI API

https://platform.openai.com/docs/plugins/bot