何千万もの楽曲がAIのトレーニングに利用可能なデータセットとして配布されておりAI生成楽曲の肥やしになっているとの指摘

何千万もの楽曲が収録されたデータセットがAIトレーニングに利用されていると、The Atlanticが報じています。中には著作権で保護されている楽曲や、AIのトレーニングに利用するにはライセンス契約が必要な楽曲も存在すると指摘されました。
The Millions of Songs Mashed Into AI-Generated Music - The Atlantic
https://www.theatlantic.com/technology/2026/06/ai-music-generators-suno-google-udio/687485/
https://www.theverge.com/ai-artificial-intelligence/953183/the-atlantic-searchable-database-music-ai-training-data
音楽生成AIが「著作権で保護されている楽曲」をAIのトレーニングに利用している疑惑はこれまで長らく指摘され続けてきました。
音楽生成AIのSunoやUdioは、AIのトレーニングに著作権で保護されているはずの楽曲を利用しているとして、音楽企業から批判され続けており、2024年6月にはUniversal Music Group、Sony Music Entertainment、Warner Recordsを代表してアメリカレコード協会が、SunoとUdioを訴えました。
音楽生成AIサービス「Suno」と「Udio」をソニー&ワーナー&ユニバーサルなどの音楽大手各社が著作権侵害で訴える - GIGAZINE

このような音楽生成AIに対する疑惑を調査するべく、The Atlanticのアレックス・ライスナー氏はAIのトレーニングに利用されるトレーニングデータに着目。ライスナー氏はAI開発コミュニティで共有されている4つの楽曲データセットを見つけ、その中身を調査しました。すると、データセットの1つには1200万曲、もうひとつには900万曲が収録されていることが明らかになっています。なお、残り2つのデータセットにも、10万曲以上が収録されているそうです。
これらのデータセットにはバッド・バニー、ニルヴァーナ、テイラー・スウィフト、ビリー・アイリッシュ、パール・ジャム、エルヴィス・コステロ、シェリル・クロウ、ビートルズなど世界的なアーティストの楽曲が多数含まれています。
ライスナー氏が発見した4つのデータセットのうち3つはYouTubeやSpotify上の楽曲へのリンク集として配布されています。AI開発者はこのリンク集をAIのトレーニングに利用するため、自動化ツールを使って実際の音声ファイルをダウンロードしているとライスナー氏は指摘。中にはログイン、広告、クリエイターの収益や購読者獲得につながる仕組みを回避できるツールも存在するそうです。ただし、このようなツールはYouTubeやSpotifyといったプラットフォームの利用規約に違反するものであるとライスナー氏は指摘しています。なお、残り1つのデータセットは著作権フリーの楽曲集であるFree Music Archiveのものです。

これらのデータセットはこれまで数千回ダウンロードされており、誰が使用したかを正確に把握することは困難です。しかし、GoogleやStabilityは研究論文の中でこれらのデータセットを使用したことを明記しているとライスナー氏は指摘しています。
また、Free Music Archiveのような個人利用であればストリーミング再生に無料で利用可能なデータセットもありますが、いずれのデータセットも商用利用にはライセンスが必要であると指摘。AI開発の現場で普及しているデータセットの疑わしさを指摘しました。
The Atlanticは4つのデータセットに含まれる楽曲を検索できるデータベースを公開しています。なお、以下のデータベースでは楽曲だけでなく、その他のあらゆるメディアがAIモデルのトレーニングに利用されていないかを検索可能です。
AI Watchdog - The Atlantic
https://www.theatlantic.com/category/ai-watchdog/
