GoogleがGemma 4より4倍高速な拡散言語モデル「DiffusionGemma」をオープンモデルとして公開、数独が得意なファインチューニングモデルもあり

2026年6月10日、Googleがオープンモデルの「DiffusionGemma」を公開しました。DiffusionGemmaは主流の自己回帰モデルではなく拡散言語モデルであり、高速応答が求められる分野での活躍が期待されています。
DiffusionGemma: 4x faster text generation
https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/
https://developers.googleblog.com/diffusiongemma-the-developer-guide/
主流の言語モデルはトークンを1つずつ計算して順番に出力する「自己回帰モデル」という仕組みを採用しています。自己回帰モデルは精度の高い推論が可能な一方で、処理速度が遅くなるというデメリットも抱えています。
拡散言語モデルは画像生成AIで主流な「ノイズ全体を何度も反復処理して完成形に近づける」という処理を言語モデルに応用した仕組みで、自己回帰モデルと比べて高速な処理が可能です。拡散言語モデルは複数のAI研究機関によって開発が進められており、Googleも2025年5月に「Gemini Diffusion」を発表していました。今回発表されたDiffusionGemmaはGemini Diffusionの成果をもとに構築されたオープンモデルです。

DiffusionGemmaは総パラメーター数252億、アクティブパラメーター数38億のMoEモデルです。以下のグラフは「DiffusionGemma」「Gemma 4 31B」「Gemma 4 26B A4B」「Gemma 4 12B」の処理精度および処理速度を比較したグラフで、横軸が1秒当たりの出力トークン数、縦軸がベンチマークスコアを示しています。Gemma 4シリーズは高速化技術のMTPを適用した状態ですが、それでもDiffusionGemmaの方が圧倒的に高速な処理が可能です。

モデルの規模が同一のDiffusionGemmaとGemma 4 26B A4Bの性能比較結果が以下。DiffusionGemmaはGemma 4 26B A4Bと比べて約4倍高速に動作しつつ、性能の低下は抑えられています。

DiffusionGemmaのような拡散言語モデルは「同じ場所について繰り返し試行する」という処理が得意です。以下は「DiffusionGemmaのベースモデル(左)」と「DiffusionGemmaのファインチューニングモデル(右)」で同じ数独の問題を解いた結果を示しており、DiffusionGemmaにファインチューニングを施すことで「同じマス目について何度も思考し直す」という数独タスクを高精度にこなせるようになったことが分かります。

DiffusionGemmaはオープンモデルとして公開されており、以下のリンク先から無料でダウンロード可能。ライセンスはApache License 2.0です。
google/diffusiongemma-26B-A4B-it · Hugging Face
https://huggingface.co/google/diffusiongemma-26B-A4B-it
また、NVIDIAと協力してNVFP4での量子化版も開発しています。NVFP4版は以下のリンク先で公開されており、単一のGeForce RTX 5090で動作します。
nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face
https://huggingface.co/nvidia/diffusiongemma-26B-A4B-it-NVFP4
