生成AIのトレーニングに使用するコンテンツは、ボットを使ってウェブ上からスクレイピングすることがありますが、これは度々問題視されています。AppleもAIのトレーニングに使用するコンテンツをスクレイピングしているものの、複数のニュースサイトがこのクローラーをブロックしている実態が明らかになりました。

Many of the biggest websites opted out of Apple Intelligence training

https://9to5mac.com/2024/08/29/apple-intelligence-training-opt-outs/



Why top publishers are opting out of Apple Intelligence AI data scraping | iThinkDifferent

https://www.ithinkdiff.com/apple-intelligence-data-scraping-publishers/

Websites Increasingly Tell Apple and AI Companies to Stop Scraping - MacStories

https://www.macstories.net/linked/websites-increasingly-tell-apple-and-ai-companies-to-stop-scraping/

Top Media Outlets Block Apple’s AI Data Collection • iPhone in Canada Blog

https://www.iphoneincanada.ca/2024/08/29/news-outlets-block-apple-ai-data-collection/

Apple wants to scrape content for Apple Intelligence training - but few publishers have agreed terms to let it happen | iMore

https://www.imore.com/apple/apple-wants-to-scrape-content-for-apple-intelligence-training-but-few-publishers-have-agreed-terms-to-let-it-happen

Apple blocked from training Apple Intelligence on several publishing websites - here’s what we know | Tom's Guide

https://www.tomsguide.com/ai/apple-blocked-from-training-apple-intelligence-on-several-publishing-websites-heres-what-we-know

Websites opt out of Apple AI scraping, signaling 'conflict zone' | Cult of Mac

https://www.cultofmac.com/news/websites-opt-out-of-apple-ai-scraping

New York Times and more block Apple Intelligence training

https://appleinsider.com/articles/24/08/29/big-name-publishers-are-refusing-to-let-apple-intelligence-train-on-data

Apple's AI training faces backlash as major publishers opt out - PhoneArena

https://www.phonearena.com/news/apple-ai-training-publishers-opt-out_id162000

生成AIはウェブ上のコンテンツをスクレイピングしてトレーニングに利用しています。著作権で保護されたコンテンツもAIのトレーニングに利用しているため、この手法は度々問題視されてきました。

AppleのパーソナルAIであるApple Intelligenceもトレーニングのためにウェブ上のコンテンツをスクレイピングしていますが、コンテンツパブリッシャーはrobots.txtファイルに指示を記載することで、自身のコンテンツがスクレイピングされることを明示的にオプトアウト(ブロック)することが可能です。

Appleはこのオプトアウト機能「Applebot-Extended」を2024年5月に発表しており、Appleがウェブ上のコンテンツをスクレイピングするのに使用しているクローラーの「Applebot」に関する情報がまとめられている以下のページにも情報が記載されています。なお、Applebotは元々は音声アシスタントのSiriや検索機能のSpotlightをトレーニングするために利用されていたクローラーで、2015年に登場しました。Appleは近年、Apple IntelligenceをトレーニングするためにApplebotを再利用するようになっています。

About Applebot - Apple Support

https://support.apple.com/en-us/119829



このApplebotのオプトアウト機能を、FacebookやInstagramといったMetaの運営する大手SNSや、The New York TimesやThe Atlanticといった大手ニュースサイトが利用していることが明らかになりました。

Applebotをオプトアウトしているか否かは一般公開されているrobots.txtファイルをチェックすることで誰でも確認できます。海外メディアのWIREDが調査したところ、Facebook、Instagram、Craigslist、Tumblr、The New York Times、The Financial Times、The Atlantic、Vox Media、USA Today、Condé NastなどがApplebotをブロックしていることが明らかになりました。WIREDは「トラフィックの多いウェブサイトの約6〜7%がApplebotをブロックしている」と報じています。

他にも、データジャーナリストであるベン・ウェルシュ氏の独自調査により、アメリカを拠点とする英語ベースメディアの1167件中294件(約4分の1)がApplebotをブロックしていることが明らかになっています。これに対して、OpenAIのクローラーをブロックしている企業は約53%、Googleのクローラーをブロックしている企業は約43%だそうです。

なお、AppleはAIをトレーニングするために複数のメディアと契約を結んでいることが報じられているため、Applebotをブロックしているのはこの契約を結んでいない企業およびメディアであると推察されます。

Appleがニュース記事で生成AIをトレーニングするためさまざまなメディアと5000万ドル以上の複数年契約について話し合ったことが発覚 - GIGAZINE



AIによる盗作などをチェックするためのツールを開発するOriginality AIの創設者であるジョン・ギルハム氏は、「世界最大の出版社の多くは明らかに戦略的なアプローチを取っています。パートナーシップ契約が締結されるまでデータを保留するなど、ビジネス戦略が関係しているケースもあると思います」と語り、企業側はAppleから金銭を受け取るためにApplebotを拒絶している可能性があると指摘しています。

なお、AppleがYouTubeの動画字幕をAIのトレーニングに使用していることが指摘されていますが、AppleはApple Intelligenceを含む製品版AIのトレーニングには使っていないと反論しています。

AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論 - GIGAZINE