中国のAI企業であるZ.aiが、オープンソースでありながら産業グレードのパフォーマンスを発揮する離散自己回帰画像生成モデルの「GLM-Image」を発表しました。GLM-Imageは自己回帰モデルと拡散モデルのハイブリッドとなっています。

GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation

https://z.ai/blog/glm-image



Z.aiが現地時間の2026年1月14日に発表した画像生成モデルのGLM-Imageは、自己回帰モデルと拡散モデルを組み合わせたハイブリッドモデルです。自己回帰モデルは、90億のパラメーターを持つ「GLM-4-9B-041」に基づいて初期化されています。拡散モデルは「CogView4」に従い、70億のパラメーターを持つシングルストリームDiT構造を採用しているそうです。

GLM-Imageのハイブリッドモデルは、テキストレンダリングや知識集約型生成で大きな利点を発揮します。特に、正確な意味理解と複雑な情報表現を必要とするタスクで優れたパフォーマンスを発揮すると同時に、プロンプトに忠実な生成を可能とします。

GLM-Imageによる画像生成の一例をまとめたものが以下。



拡散モデルはトレーニングの安定性と強力な一般化能力から、画像生成モデルの主流となっています。拡散モデルや変分オートエンコーダ(VAE)は年々改良されていますが、拡散モデルは依然として複雑な指示や知識集約型シナリオを苦手としています。

一方で、近年はプロンプトに忠実な出力を可能とする自己回帰モデルを採用した画像生成AIも増えていますが、自己回帰モデルには実行が遅いという欠点があります。GLM-Imageは拡散モデルと自己回帰モデルの優れた点を組み合わせたハイブリッドモデルとして開発されました。

GLM-Imageでは、自己回帰ジェネレーターが低周波の意味信号を持つトークンを生成し、拡散デコーダーは高周波の詳細を精製して最終画像を提供します。このハイブリッドアーキテクチャにより、一般的な画像生成タスクが確実に機能するだけでなく、複雑な知識表現を必要とするクリエイティブな作業でも顕著な利点がもたらされています。

GLM-Imageの画像生成メカニズムを示した図が以下。



画像生成モデルのテキストレンダリング精度を比較した表が以下。GLM-Imageはオープンソースモデルでありながら、圧倒的なテキストレンダリング精度の高さを実現しています。

モデルオープンソースNEDCLIPScoreWord Accuracy 2 regionsWord Accuracy 3 regionsWord Accuracy 4 regionsWord Accuracy 5 regionsWord Accuracy averageGLM-Image〇0.95570.78770.91030.92090.91690.89750.9116Seedream 4.5    ×0.94830.80690.87780.89520.90830.90080.899Z-Image〇0.93670.79690.90060.87220.86520.85120.8671Qwen-Image-2512〇0.9290.78190.8630.85710.8610.86180.8604Z-Image-Turbo〇0.92810.80480.88720.86620.86280.83470.8585GPT Image 1[High]×0.94780.79820.87790.86590.87310.82180.8569Seedream 4.0    ×0.92240.79750.85850.84840.85380.82690.8451Qwen-Image〇0.91160.80170.8370.83640.83130.81580.8288Nano Banana 2.0×0.87540.73720.73680.77480.78630.79260.7788TextCrafter〇0.86790.78680.76280.76280.74060.69770.737SD3.5 Large〇0.8470.77970.72930.68250.65740.5940.6548Seedream 3.0    ×0.85370.78210.62820.59620.60430.5610.5924FLUX.1 [dev]〇0.68790.74010.60890.55310.46610.43160.49653DIS〇0.65050.77670.44950.39590.3880.33030.3813RAG-Diffusion〇0.44980.77970.43880.33160.21160.1910.2648TextDiffuser-2〇0.43530.67650.53220.32550.17870.08090.2326AnyText〇0.46750.74320.05130.17390.19480.22490.1804

なお、GLM-Imageはオープンソースの画像生成モデルであるため、GitHubおよびHugging Faceでコードやモデルデータが公開されています。

GitHub - zai-org/GLM-Image: GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation.

https://github.com/zai-org/GLM-Image



zai-org/GLM-Image · Hugging Face

https://huggingface.co/zai-org/GLM-Image