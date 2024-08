生成AIのトレーニングに使用するコンテンツは、ボットを使ってウェブ上からスクレイピングすることがありますが、これは度々問題視されています。AppleもAIのトレーニングに使用するコンテンツをスクレイピングしているものの、複数のニュースサイトがこのクローラーをブロックしている実態が明らかになりました。Many of the biggest websites opted out of Apple Intelligence training

Appleはこのオプトアウト機能「Applebot-Extended」を2024年5月に発表しており、Appleがウェブ上のコンテンツをスクレイピングするのに使用しているクローラーの「Applebot」に関する情報がまとめられている以下のページにも情報が記載されています。なお、Applebotは元々は音声アシスタントのSiriや検索機能のSpotlightをトレーニングするために利用されていたクローラーで、2015年に登場しました。Appleは近年、Apple IntelligenceをトレーニングするためにApplebotを再利用するようになっています。About Applebot - Apple Supporthttps://support.apple.com/en-us/119829このApplebotのオプトアウト機能を、FacebookやInstagramといったMetaの運営する大手SNSや、The New York TimesやThe Atlanticといった大手ニュースサイトが利用していることが明らかになりました。Applebotをオプトアウトしているか否かは一般公開されているrobots.txtファイルをチェックすることで誰でも確認できます。海外メディアのWIREDが調査したところ、Facebook、Instagram、Craigslist、Tumblr、The New York Times、The Financial Times、The Atlantic、Vox Media、USA Today、Condé NastなどがApplebotをブロックしていることが明らかになりました。WIREDは「トラフィックの多いウェブサイトの約6〜7%がApplebotをブロックしている」と報じています。他にも、データジャーナリストであるベン・ウェルシュ氏の独自調査により、アメリカを拠点とする英語ベースメディアの1167件中294件(約4分の1)がApplebotをブロックしていることが明らかになっています。これに対して、OpenAIのクローラーをブロックしている企業は約53%、Googleのクローラーをブロックしている企業は約43%だそうです。なお、AppleはAIをトレーニングするために複数のメディアと契約を結んでいることが報じられているため、Applebotをブロックしているのはこの契約を結んでいない企業およびメディアであると推察されます。Appleがニュース記事で生成AIをトレーニングするためさまざまなメディアと5000万ドル以上の複数年契約について話し合ったことが発覚 - GIGAZINEAIによる盗作などをチェックするためのツールを開発するOriginality AIの創設者であるジョン・ギルハム氏は、「世界最大の出版社の多くは明らかに戦略的なアプローチを取っています。パートナーシップ契約が締結されるまでデータを保留するなど、ビジネス戦略が関係しているケースもあると思います」と語り、企業側はAppleから金銭を受け取るためにApplebotを拒絶している可能性があると指摘しています。なお、AppleがYouTubeの動画字幕をAIのトレーニングに使用していることが指摘されていますが、AppleはApple Intelligenceを含む製品版AIのトレーニングには使っていないと反論しています。AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論 - GIGAZINE