画像生成AIのStable Diffusionが一般に無料公開されたことをきっかけに、画像生成AIの進歩が急激に進んでいます。一方で、AIモデルの学習に使われているデータセットの権利問題を指摘する声もあがっており、一部では法的責任を追及する議論も行われています。インターネットでさまざまな活動を行っている開発者のアンディ・バイオ氏が、「大学や非営利団体の研究者が、大手テクノロジー企業が説明責任から逃避するための隠れ蓑になっている」と批判しています。

AI Data Laundering: How Academic and Nonprofit Researchers Shield Tech Companies from Accountability - Waxy.org

https://waxy.org/2022/09/ai-data-laundering-how-academic-and-nonprofit-researchers-shield-tech-companies-from-accountability/

2022年9月、Metaは動画生成AI「Make A Video」を発表しました。このAIは文字列(プロンプト)を入力するだけで動画を生成するというものでした。

Metaが動画生成AI「Make A Video」発表、空飛ぶスーパードッグや自画像を描くテディベアの動画を公開 - GIGAZINE



Metaは(PDFファイル)論文の中で、「動画生成モデルには『WebVid-10M』と『HD-VILA-100M』という2つのデータセットを使っている」と記していました。そこで、ソフトウェア開発者のサイモン・ウィルソン氏がAIの学習用データセットを検索するオープンソースのツール「Datasette」で2つのデータセットについて調べたところ、「WebVid-10M」に含まれる1070万本以上のビデオクリップすべてにShutterstockの透かしが入っていたとのこと。また、「HD-VILA-100M」はMicrosoftが収集した映像で構成されたデータセットで、そのうち数百万本がYouTubeから収集されたものだったことがわかりました。

Metaは一連のデータセットを「AIへの学習」という研究目的で使っており、商用利用とはしていません。しかし、バイオ氏は「Metaはおそらく将来的な商用利用を想定した上でAIモデルをトレーニングしています。変だと思うでしょう? 実はそうでもないんです。AIを扱う企業が、大学や非営利団体が収集・訓練したデータセットやモデルを商用利用するのは当たり前になっています」と述べています。

例えば、画像生成AIのStable Diffusionは、記事作成時点ではStability AIが開発を主導していますが、もともとはミュンヘン大学ルートヴィヒ・マキシミリアン校(LMU)の機械視覚・学習研究グループの研究からスタートしています。LMUの研究者は、Stability AIがコンピューターを寄付してくれたおかげで開発プロジェクトが進んだと感謝しているそうです。

そして、Stable DiffusionやGoogleのImagen、Make A Videoの画像生成モデルの学習に使われたデータセットはいずれもドイツの非営利団体・LAIONが作成したものです。Stability AIはLAIONにも資金提供しています。



バイオ氏は、大学などの研究機関や非営利団体によってデータ収集とモデルの学習が行われている場合、アメリカの著作権法で認められているフェアユースに該当する可能性が高いとみています。しかし、「DreamStudio」のように商業サービスを展開しているStability AIが、大学や非営利団体が作ったデータセットを使ってモデルを学習させ、商用利用可能なオープンソースライセンスの下で画像を生成するのは、一種のデータロンダリングであるとバイオ氏は批判しています。

バイオ氏は、ワシントン大学の研究者が顔認証AIの学習用データセットに写真共有コミュニティサイトのFlickrにあるクリエイティブ・コモンズライセンスの画像を使った件に言及し、データセットの法的責任に触れています。Flickrユーザーだったバイオ氏は帰属表示付きかつ非営利目的で写真をアップロードしていたそうですが、そうしたライセンス規約は無視されたと指摘。ワシントン大学のデータセットは後に廃止されましたが、IBMが作成したデータセットも同様の問題について報じられました。

IBMがユーザーに無断でFlickr上の写真を顔認証技術のために利用しているという指摘 - GIGAZINE



バイオ氏は「データセットの画像すべてで許諾を得ることは大変なコストがかかり、技術の進歩を遅らせるでしょう。しかし無条件に世界にリリースしたものを取り消すことは困難なのです」とコメントしています。

また、バイオ氏は「2022年に入ってAIが急激な進歩を遂げている一方で、AIモデルやデータセットの作成についての倫理観とデータセットへの使用同意・権利帰属・ライセンス表示の欠如などがあらわになっています。実際にこの問題の解決に取り組んでいる人もいますが、私は懐疑的です。AIモデルは一度学習したら、少なくとも今のところ、ほぼそのデータを忘れることはありません」と述べました。