画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明

2025年12月25日 15時0分

生成AIの発達により、テキストプロンプトを入力するだけで誰でも簡単に画像を生成できるようになりました。一見すると、画像生成AIは多様で自由な表現を生み出せるように思えますが、スウェーデンの研究者らが発表した研究では、AI同士による自律的な生成を繰り返すと最初は多様に見えた画像が最終的にわずか「12種類のスタイル」へと収束してしまう可能性が示されています。

Autonomous language-image generation loops converge to generic visual motifs: Patterns

https://www.cell.com/patterns/fulltext/S2666-3899(25)00299-5

AI Image Generators Default to the Same 12 Photo Styles, Study Finds

https://gizmodo.com/ai-image-generators-default-to-the-same-12-photo-styles-study-finds-2000702012

スウェーデンのダーラナ大学でデータ分析学を専門とするアーレンド・ヒンツェ氏らの研究チームは、AIの自己参照的なループを使用して、「AIの創造性」をテストしました。研究では、画像生成AIの「Stable Diffusion XL」と画像を認識してチャットを行うAIの「LLaVA」を用いて、人間の介入なしで動作するテキスト→画像→テキスト→画像のサイクルを作成しています。

例えば、最初はStable Diffusion XLに「自然に囲まれて、一人で座っていると、ちょうど8ページの古い本を見つけました。そこには、忘れられた言語で書かれた物語が書かれており、読まれ理解されるのを待っていました」といったような短いプロンプトを与え、画像を生成するよう要求します。生成された画像はLLaVAに提示され、LLaVAは画像を読み取って画像についてテキストで説明します。その説明がStable Diffusion XLに送られ、それをプロンプトとして新しい画像を生成します。この処理を100ラウンド以上行うサイクルの中で、どのように画像が変化していくのか調査されました。

サイクルの中で、伝言ゲームを遊ぶ時のように元の画像はすぐ失われました。その上で、人間同士の伝言ゲームでは、メッセージはそれぞれ伝わり方や受け取られ方が異なり、人それぞれの偏見や好みが反映されるため、結果的に大きなばらつきが生じます。一方でAIは元のメッセージがどれほど奇抜であっても常に限られた種類のメッセージしか選べないため、伝言ゲームのように「想像もしなかった方向へ創造性が広がる」というようなことはなく、むしろ少数のビジュアルモチーフへと収束していったと研究者は報告しています。

ヒンツェ氏は「結果は、直感に反する印象的なものとなりました。画像生成とテキスト記述の両方が確率的な性質を持つにもかかわらず、自律的なAI同士の創造サイクルは、一貫して驚くほど類似した出力へと収束します。独立した軌跡は、その多様な意味的開始点やサンプリングパラメータに関わらず、一般的で商業的に実現可能な美学を特徴とする、ほぼ同一の視覚的およびテキスト的エンドポイントへと進化します。これを私たちは『ビジュアル・エレベーター・ミュージック(誰も気にしないエレベーター内の音楽のような無難な画像)』と呼んでいます」と結果に驚いた旨を語っています。

2000回以上行われたすべての実験条件において、最終的にわずか12個の視覚モチーフへ収束したことが明らかになりました。1000回以上の実験で、生成された画像のいずれかに必ず含まれていたモチーフは以下の通りです。

・スポーツやアクション

・フォーマルな室内空間

・海または灯台

・雰囲気のある照明による都市の夜景

・ゴシック様式の大聖堂の内部

・豪華なインテリアデザイン

・インダストリアルやビンテージのテーマ

・素朴な建築空間

・家庭のシーンや食べ物の画像

・装飾的な建築による宮殿の内部

・田園風景や村

・ドラマチックな照明による自然の風景や動物

研究によると、収束した画像に共通するのは「人間がよく撮影するテーマ」または「画像生成時にデータセットで多用されているようなビジュアル」であるとのこと。

今回の研究結果は、モデルやプロンプトにかかわらず、個々のアーキテクチャを超越したAI同士の創造プロセスにおいて、創造性に根本的な制約があることを示唆している可能性があります。AI画像生成は広告やデザイン、映画やゲームなどで活用されつつありますが、仮にユニークなプロンプトを入力した場合でも「AIの限られた創造性によりある程度収束した画像となっており、同じモチーフに偏ることで独創性や文化的多様性の喪失につながるリスクがある」ということを意識する必要があると研究者らは指摘しています。

みんなの感想は？

画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明

外部サイト

関連情報（BiZ PAGE＋）

ランキング