大規模言語モデル「LLaMA」を開発するMetaは、2023年7月に「著作権で保護された書籍を用いてAIをトレーニングしている」として提訴されています。この裁判で新たに、Metaが海賊版電子書籍ライブラリのZ-LibraryやAnna’s Archiveなどに保存された約81.7TB分のデータを用いてLLaMAのトレーニングを行ったという証拠が提示されました。

Kadrey-v-Meta-Motion-for-Relief-Appendix-A-2-5-25.pdf

(PDFファイル)https://cdn.arstechnica.net/wp-content/uploads/2025/02/Kadrey-v-Meta-Motion-for-Relief-Appendix-A-2-5-25.pdf

“Torrenting from a corporate laptop doesn’t feel right”: Meta emails unsealed - Ars Technica

https://arstechnica.com/tech-policy/2025/02/meta-torrented-over-81-7tb-of-pirated-books-to-train-ai-authors-say/



'Meta Torrented over 81 TB of Data Through Anna's Archive, Despite Few Seeders' * TorrentFreak

https://torrentfreak.com/meta-torrented-over-81-tb-of-data-through-annas-archive-despite-few-seeders-250206/

コメディアンで作家でもあるサラ・シルバーマン氏および作家のクリストファー・ゴールデン氏とリチャード・キャドリー氏は、ChatGPTとLLaMAは違法にインターネット上に流通している作品をデータセットとしてトレーニングされたものであると主張し、OpenAIとMetaを2023年7月に訴えました。

OpenAIとMetaが著作権侵害で3人の作家から訴えられる - GIGAZINE



2025年1月には、Metaの従業員が海賊版電子書籍ライブラリのLibrary Genesis(LibGen)を基にしたデータセットから著作権情報を削除したことを認める証言があったことや、開示された社内文章で、Metaでは公式にLibGenの使用を認めていたことが指摘されています。

Metaのマーク・ザッカーバーグCEOがAI「Llama」の開発チームに対し著作権で保護された作品の無断使用を許可したと訴訟で追及される - GIGAZINE



さらに2025年2月に原告側は「Metaによる違法なAIトレーニングの規模は驚くべきものです。2024年春だけでMetaはAnna's Archiveというサイトを通じて、複数の海賊版電子書籍ライブラリから少なくとも81.7TBものデータを取得しました。これには、Z-LibraryやLibGen内の少なくとも35.7TBのデータも含まれています」と批判しました。また、原告側はMetaがLibGenから入手したデータが80.6TBに上ることを指摘しています。

これまでの裁判の中で、Metaは一貫して「LibGenを使ったAIトレーニングは、フェアユース」だと主張しています。しかし、Metaはデータセットのダウンロードの際にFacebookのインフラを使用しないことで、データの取得者がMetaであることが判明するリスクを回避していたことが(PDFファイル)開示された電子メールで明かされています。そのため、原告側は「Metaは海賊版電子書籍ライブラリからのデータ収集行為が違法であることを認識していた」と主張しました。



一方でMetaは「原告は、書籍の一部が実際に第三者によってMetaから海賊版電子書籍ライブラリ経由でダウンロードされたという事例を一例も報告していません。ましてや、原告の書籍が何らかの形でMetaによって配布されたとも主張していません」と述べ、原告側の主張の棄却を求めています。