AMDが画像生成AI「Nitro-E」を2025年10月24日にリリースしました。Nitro-Eはパラメーター数304M(3億400万)の軽量モデルで、トレーニングと画像生成処理の高速化を実現しています。

Nitro-E: A 304M Diffusion Transformer Model for High Quality Image Generation - ROCm Blogs

https://rocm.blogs.amd.com/artificial-intelligence/nitro-e/README.html

Nitro-Eは「E-MMDiT」というアーキテクチャを採用しています。2022年に公開された初期のStable Diffusionは「U-Net」というアーキテクチャを用いていましたが、2025年時点ではTransformerを用いた「Diffusion Transformer(DiT)」というアーキテクチャや、テキストと画像を扱うために設計された「Multimodal Diffusion Transformer(MMDiT)」を採用した画像生成AIが増えています。E-MMDiTはMMDiTの改良版アーキテクチャで、「マルチパス圧縮モジュールによって処理対象の画像トークン数を68.5%削減」といったトレーニングと推論の高速化に役立つ仕組みが取り入れられています。

学習データは「1110万枚の非AI生成画像」「Midjourneyで生成された440万枚の画像」「FLUX.1-devで生成された950万枚の画像」を使用。さらに、高圧縮のビジュアルエンコーダー「DC-AE」と軽量かつ高性能なテキストエンコーダー「Llama-3.2-1B」を採用しています。パラメーター数はわずか304Mで、Instinct MI300Xを8基搭載したAI処理ノードを用いて1.5日でトレーニングを完了できます。



推論(画像生成処理)も非常に高速で、単一のInstinct MI300Xを用いて512×512ピクセルの画像を毎秒18.8サンプル生成可能。蒸留モデルでは毎秒39.3サンプル生成できます。さらに、ノートPCやミニPCなどで採用されているGPU内蔵プロセッサ「Ryzen Al Max+ 395(コードネーム:Strix Halo)」でも512×512ピクセルの画像を0.16秒で生成できます。

Nitro-Eで生成した画像の例が以下。



AMDはNitro-Eの通常版のほかに、各種タスクに最適化したGRPO版と、蒸留によって4ステップでの生成を可能にした4Step版をリリースしています。以下のグラフは「Nitro-Eの通常版(E-MMDiT)」「Nitro-EのGRPO版(E-MMDiT-GRPO)」「Nitro-Eの4Step版(E-MMDiT-4Step)」と各種画像生成AIモデルの性能を比較したもので、縦軸が生成画像の品質、横軸が1秒当たりの生成サンプル数、円の大きさがモデルの規模を示しています。グラフを見ると、Nitro-Eシリーズは高速かつ高品質な画像生成を小型モデルで実現していることが分かります。



Nitro-Eのモデルデータは以下のリンク先で公開されています。

amd/Nitro-E · Hugging Face

https://huggingface.co/amd/Nitro-E



また、Nitro-Eのトレーニングに使用した学習データやコードは以下のリンク先にまとまっており、誰でもNitro-Eを再現できるようになっています。

GitHub - AMD-AGI/Nitro-E

https://github.com/AMD-AGI/Nitro-E