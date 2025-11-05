非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。Common Crawl Is Doing the AI Industry’s Dirty Work - The Atlantichttps