生成AI、AI同士で学習するとぶっ壊れる：研究結果

2024年7月28日 22時30分

Image: ギズモード・ジャパン - generated with Shutterstock.AI

人工知能（AI）がAIを壊す日はやってくるのでしょうか。

近ごろ話題のつきない生成AIは、人間が作った文章やイラストなどをお手本の情報とし、大量に学習することで新たな情報を作り出す仕組みになっています。しかし、AIによって生成された情報をお手本として利用すると、わずか数世代の学習をするだけでAIモデルが崩壊するとの研究結果が英科学誌ネイチャーに掲載されました。

AIモデルが壊れる仕組み

AIモデルの崩壊は、生成AIによって作られたデータの学習量が多いと起きるとされています。

大規模言語モデルなどの生成AIツールは、大量のデータを学習することで情報を理解し、質問などのプロンプトに対して情報を生成します。しかし、学習する際にデータの見逃しや選別が行われてしまうことで学習できる情報の幅が狭まってしまい、それが繰り返されることで短期間でモデルが崩壊する、というのが今回の論文にまとめられています。

事例：教会とウサギ

研究者たちは試しに、ChatGPT-3に似た文章生成モデルであるOPT-125mに、14世紀の教会の尖塔デザインについて学習させました。

初めの方は様々な教皇の元で建設された建物を答えていたAIモデルですが、 9世代目の学習にまでなると、青や赤、黄色などあり得ない色のジャックウサギ（ウサギの一種）を説明するようになっていました。尖塔の話題はさっぱり忘れさられています。

AI生成コンテンツが広まるにつれ高まる、モデル崩壊の危機

インターネット上に多くの偽情報が掲載されているのは今となっては当たり前ですが、生成AIが多くのコンテンツを作成するようになったことで、新たな局面を迎えています。

デューク大学でプライバシーとセキュリティーを専門としているエミリー・ウェンガー氏は、「崩壊したモデルは学習データの中の出現頻度の少ない情報を見落とすため、世界の複雑さやニュアンスを反映させることができません。これによって、マイノリティのグループや少数派の意見が表示されにくくなったり、削除されてしまう可能性があります」としています。

生成AIによって作られたコンテンツに対しては、テック企業側も対策を打ち出しています。Google NewsがAI生成記事を押し上げていると報じられたグーグルは3月、検索エンジン向けに作られたとみられるページの順位を下げるようにアルゴリズムを調整すると発表しました。

今回の論文をまとめた研究者たちは、データは人間が書いたオリジナルのものを使い、フィルタリングすることでモデルが壊れないように学習させることが可能としています。また、学習させるデータの出所を記録するためにAIコミュニティーの協力が必要となるとも述べています。

はたして、AIによるAIコンテンツでインターネットが埋もれる日は来るのでしょうか。