Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース

2024年9月2日 10時45分

Stable DiffusionやMidjourneyなど著名な画像生成AIにも使われたデータセット「LAION-5B」に児童性的虐待コンテンツ(CSAM)が見つかった問題で、LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました。

Releasing Re-LAION 5B: transparent iteration on LAION-5B with additional safety fixes | LAION

https://laion.ai/blog/relaion-5b/

Nonprofit scrubs illegal content from controversial AI training dataset | Ars Technica

https://arstechnica.com/tech-policy/2024/08/nonprofit-scrubs-illegal-content-from-controversial-ai-training-dataset/

2023年12月、インターネットの安全性を研究するスタンフォードインターネット監視団により、LAION-5BにCSAMが含まれていることが指摘されました。報告では、インターネットから収集された58億の画像リンクのうち、「CSAM」または「CSAMの疑いあり」と判断されたリンクが1008個発見されており、こうしたデータセットの存在が、一部の画像生成AIが児童を描写したディープフェイクを簡単に作成できる一因となっていることが伝えられていました。

画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ - GIGAZINE

報告を受けてLAIONはLAION-5Bを直ちに削除し、スタンフォードインターネット監視団やカナダとイギリスの虐待防止団体と協力して問題のあるリンクの削除に取り組みました。8カ月にわたる処理の結果、LAIONは報告された1008個のリンクを含む合計2236個のCSAMへのリンクをデータセットから削除し、これらのリンクを排除した「クリーンなデータセット」としてRe-LAION-5Bを発表しました。

リンクの削除に加え、LAIONは「新しい安全基準」を制定したとも発表しました。LAIONによると、以前は違法コンテンツがLAIONのフィルターをすり抜けることがあったそうですが、Re-LAION-5Bはこのフィルタリングが強化され、疑わしいリンクの大部分が除外されたとのことです。

LAIONは、「LAION-5Bは2022年9月までのクロールデータに基づいて設計されており、Re-LAION-5BにはLAION-5Bにすでに含まれているリンク以外に新しいコンテンツは存在しません。そのため、データセットに新たな疑わしい未チェックのリンクが紛れ込むことはありません。Re-LAION-5Bは協力機関によって確認されたすべてのCSAMリンクと照合済みです。したがって、研究者がより安全に使用することができます」と述べました。