AI企業のRunwayが2024年6月に発表した動画生成AIモデルの「Gen-3 Alpha」は、写真系YouTuberの動画をスクレイピングしてトレーニングされた可能性があることが404 Mediaの調査により明らかになりました。

A leaked internal document shows Runway’s celebrated Gen-3 AI video generator collected thousands of YouTube videos and pirated movies for training data.

https://www.404media.co/email/e3836b26-6914-4c1c-a102-bf9735adc3de/



In latest AI training drama, Runway accused of using publicly available YouTube videos - SiliconANGLE

https://siliconangle.com/2024/07/25/latest-ai-training-drama-runway-accused-using-publicly-available-youtube-videos/

Runway Trained Its Video AI By Scraping Popular Photography YouTubers | PetaPixel

https://petapixel.com/2024/07/25/runway-trained-its-video-ai-by-scraping-popular-photography-youtubers/

Runwayの従業員がYouTubeや海賊版動画サイトなどから動画データを収集し、最新の動画生成AIモデルである「Gen-3 Alpha」のトレーニングに使用していたことを示す内部文書を、404 Mediaが独自に入手したことを明らかにしました。この内部文書によると、「AIモデルを構築するために良質な動画を探すこと」が、Runwayでは全社的な取り組みとして行われていたそうです。

404 Mediaが独自に入手した内部文書には、オススメチャンネルやオススメキーワード、ハッシュタグなどがまとめてあり、チャンネル登録者数95万人超のKai Wや、チャンネル登録者数594万人超のPeter McKinnon、チャンネル登録者数12万人超のMichael Shainblumなど、人気の写真系YouTuberのチャンネルが並んでいます。

Video sourcing - Jupiter



さらに、404 Mediaがリストに載っている一部のYouTuberの名前をプロンプトとして使用してGen-3 Alphaで動画を生成すると、特定のクリエイターの動画と非常によく似た動画が生成されることを発見しました。

例えば、アイスランドでの写真撮影に関する動画をYouTubeに投稿しているBenjamin Hardmanさんの名前を利用すると、同氏が投稿している動画によく似たものが出力されるとのこと。404 Mediaが使用したプロンプトは「YouTuberのBenjamin Hardman氏が、彼の旅行動画のスタイルで登場」で、生成された動画のワンシーンを切り取ったのが以下の画像。



他にも、ソニーのα7 IVやFX3といった特定のカメラで撮影された動画も重点的にスクレイピングされており、これは「ソニーのカメラで撮影したような動画を生成して」といったようなプロンプトに対応するためのものと予想されています。

ただし、404 Mediaが入手したのは「Runwayが社内で作成したスプレッドシート」であって、これらの動画が実際にトレーニングに利用された証拠はありません。404 MediaはRunwayにコメントを求めていますが、記事作成時点では回答は得られておらず、プロンプトでトレーニングに使用したと思しきYouTuberの名前をブロックし始めたそうです。

なお、GoogleはYouTubeの動画をAIのトレーニングに利用することは利用規約に違反する行為であると明言しています。

YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る - GIGAZINE