100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明

2024年4月8日 12時35分

OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。

How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Google reportedly let OpenAI transcribe a million hours of YouTube videos to train GPT-4 - Neowin

https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/

OpenAI transcribed over a million hours of YouTube videos to train GPT-4 - The Verge

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

OpenAI and Google reportedly used transcriptions of YouTube videos to train their AI models

https://www.engadget.com/openai-and-google-reportedly-used-transcriptions-of-youtube-videos-to-train-their-ai-models-163531073.html

The NewYork Timesの指摘によると、OpenAIは2021年時点でネット上にある「信頼できる英文テキスト」を使い果たし、次のAI開発にあたって新たなテキストが必要になったとのこと。

そのため、高精度な文字起こしを実現する「Whisper」を開発。

OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能 - GIGAZINE

そして、Whisperを用いてYouTubeにある動画の文字起こしを行い、AI用のトレーニング素材を入手したそうです。

YouTubeの動画を用いることについて、OpenAIでも議論はあったものの、グレッグ・ブロックマン社長も個人的にデータ収集に協力し、結果として生まれたのがGPT-4だとのこと。

「GPT-4」発表、司法試験上位10％＆日本語でもめちゃくちゃ高性能＆画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される - GIGAZINE

なお、報告によればGoogleの中にはOpenAIの行いに気付いていた人もいるようですが、トレーニング素材を必要としていたGoogleも同じくYouTubeの動画を素材として独自にAIモデルのトレーニングを行っていたため、何も行動を起こさなかったと指摘されています。

Googleは2023年7月、GoogleドキュメントやGoogleスプレッドシートなどのコンテンツもすべてトレーニングに利用できるようにするため、プライバシーポリシーを変更しています。

「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE

研究者からは、2026年までにトレーニングに使うデータが枯渇するとの指摘がありますが、実際には、すでに相当無理なことをしている状態にあるようです。

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？ - GIGAZINE

なお、The Vergeのメールインタビューに対して、OpenAI広報のリンゼイ・ヘルド氏は、グローバルな研究競争力のためにOpenAIがユニークなデータセットをキュレーションしていること、およびソースとして公開データおよびパートナーシップを結んだ非公開データを含む多数のものを使用していて、独自の合成データの生成も検討していることに言及したそうです。

一方、Google広報のマット・ブライアント氏は「robots.txtおよび利用規約で、YouTubeのコンテンツの無断スクレイピングやダウンロードは禁止しています」と述べました。

YouTubeのニール・モハンCEOも、YouTubeのデータをAIのトレーニングに用いるのはルール違反であることを明言しています。

YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る - GIGAZINE