OpenAIの大規模言語モデル、YouTubeでトレーニング中?
OpenAIが提供するチャットAIサービスChatGPT。その頭脳である大規模言語モデルGPT。最新モデルGPT-4のトーレニングにおいて、YouTubeの動画100万時間分の文字起こしデータが使用されていると、ニューヨーク・タイムズ紙が報じています。
YouTubeのニール・モーハンCEOが、YouTube動画とその文字起こしをAIトレーニングに利用するのはサービス規約に明らかに反する行為であると、Bloombergのインタビューにて語った直後の報道だけに、AIトレーニングのあり方が再び(というか常に)問題視されています。
データはいくらあっても足りない
運用にもトレーニングにも、莫大な電力が必要なAI。どれだけ喰べてもまだ足りないのは、エネルギーだけではありません。より賢くなるためには、莫大な勉強素材が必要なのです。
ニューヨーク・タイムズ紙の報道は、自称OpenAIのあるチームメンバーからの情報提供とされています。このチームにはOpenAI社長であるグレッグ・ブロックマン氏が含まれており、自称メンバーはYouTube動画を収集するサポートを行なっていたといいます。
AIトレーニングに使用するデータは、著作権やプライバシーの問題から、いちユーザーはもちろん企業も慎重な姿勢をとっています。一方で、言語モデルの知識欲は満腹知らず。トレーニングに使えるデータは常に不足状態にあるとニューヨーク・タイムズ紙は解説しいます。
Google VS. OpenAI
すでに、ChatGPTとGeminiで、ユーザーの目に見える場でもライバル関係にあるOpenAIとGoogle(グーグル)。もし、ニューヨーク・タイムズ紙の報道が事実ならば、大きな問題、ひいてはバッチバチの訴訟に発展する可能性もあります。
モーハンCEOがインタビューで語っている通り、YouTubeにアップされたコンテンツは無許可でダウンロードしてはダメ。また、コンテンツを別の独立した用途に用いることも禁止されています。
OpenAIのCTOであるMira Murati氏は、3月のウォール・ストリート・ジャーナルの取材にて、OpenAIの動画生成AI SoraのトレーニングにYouTube動画が使用されたかどうかについて、わからないと明言を避けていました。ニューヨーク・タイムズ紙の報道後、The Vergeの取材で「不確かな報道は確認している」とコメントしたGoogle担当者。
…はっ! まさか、AIで2社が手を組む流れなんてことは…。まさかねぇ…。
OpenAIがついに「声」を完コピするツールを生み出しちゃった