Alibaba所属の研究者が、リアリティのある画像の生成に優れたモデル「Z-Image(造相)」を開発しました。Z-Imageのパラメータ数は60億で、短時間で高品質な画像を生成できることを特徴としています。

GitHub - Tongyi-MAI/Z-Image

https://github.com/Tongyi-MAI/Z-Image

Tongyi-MAI/Z-Image-Turbo · Hugging Face

https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

Z-Imageは3つのバリエーションがあり、それぞれ特色が異なります。

・Z-Image-Base:ベースモデル。

・Z-Image-Turbo:Z-Imageを蒸留したバージョンで、わずか8回のNFE(関数評価回数)で主要競合モデルと同等以上の性能を発揮するモデル。エンタープライズグレードのGPU「NVIDIA H800」上で1秒未満の推論レイテンシを実現し、16GB VRAM搭載のコンシューマーデバイスにも収まる。フォトリアリスティックな画像生成、英語と中国語の二言語テキストレンダリング、堅牢な指示順守に優れる。

・Z-Image-Edit:画像編集タスク向けに微調整された派生モデル。創造的なimage-to-image生成をサポートし、印象的な指示順守能力を備え、自然言語プロンプトに基づく精密な編集が可能。

記事作成時点で、Z-Image-Turboのみが公開されています。以下のページからブラウザ上で動作するデモ版を試すことができます。

Z Image Turbo - a Hugging Face Space by Tongyi-MAI

https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo



Z-Imageのパラメータ数は60億で、これは既存のモデルを下回りますが、パラメータ数が桁違いに大きいモデルと同等のフォトリアリスティックな画像を生成できるとされています。



文字出力にも対応し、英語と中国語の正確なレンダリングに優れているとうたわれています。公開された画像によれば、日本語も一部生成できているようです。



デモサイトで試してみたところ、日本語テキストの生成はなかなかうまくいきませんでした。



推論機能も実装されていて、画像に写っているものを読み取って推論することもできます。以下画像の左半分は、鶏とウサギの頭と脚の数から頭数を導いた様子、右半分は「登科後」という漢詩から有名な一節を記述させたものです。



元の画像の特徴を保ちつつ構図の変更や画風の変更などの編集操作を行うこともできます。



評価試験では、「Qwen-Image」や「Seedream 4.0」といった主要なモデルに並ぶ性能を見せました。