AlibabaのAI開発チームであるQwenが画像生成AI「Qwen-Image」を2025年8月4日(月)に発表しました。Qwen-Imageは既存の画像生成AIが苦手とする「テキストの正確な描画」を得意としており、「複数行にわたる中国語の文章を含む画像」や「英語と中国語の両方を含む画像」を正確に描画できます。また、一般的な画像生成や画像編集も高品質であることがアピールされています。

Qwen-Image: Crafting with Native Text Rendering | Qwen

https://qwenlm.github.io/blog/qwen-image/

Qwen-Imageは画像表現とテキスト表現に別々のウェイトを用いる「マルチモーダル拡散変換器(MMDiT)」と呼ばれる技術を基盤に開発された画像生成AIで、高いテキスト描画性能を備えていることを特徴としています。Qwen-Imageに対して、「『QWEN』とプリントされたTシャツ」や「『Meet Qwen-Image - a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑』と書かれたガラスパネル」を描写するように指示して生成した画像が以下。かなり長い文章でも正確に描画することが可能で、英語と中国の同時描画にも対応しています。



Qwen-Imageは画像内のテキストの位置を細かく指定することも可能で、以下のようなスライド風画像を生成することもできます。



以下の図は、「Qwen-Image(青色)」「GPT Image 1 [High](緑色)」「Seedream 3.0(水色)」のテキスト描画性能を比較したものです。Qwen-Imageは中国語の描画性能でトップのスコアを示し、英語の描画性能でも一部のテストでGPT Image 1 [High]を超える性能を示しました。



Qwen-Imageは一般的な画像生成性能の高さもアピールされており、実写風の画像やイラスト風の画像、水墨画風の画像などが作例として公開されています。



また、「キャラクターのポーズを変更する」「キャラクターを維持しつつ画像スタイルを変更する」「画像にオブジェクトを追加する」といった編集タスクも高品質にこなすことが可能。



「Qwen-Image(青色)」「GPT Image 1 [High](薄紫)」「FLUX.1 Kontext [Pro](水色)」「Seedream 3.0(緑色)」「FLUX.1 [Dev](黄色)」「BAGEL(オレンジ色)」の画像生成性能と画像編集性能を比較した図が以下。Qwen-Imageは生成と編集の双方でライバルモデルを超えるスコアを記録しました。



Qwen-Imageのモデルデータは以下のリンク先で公開されています。

Qwen/Qwen-Image · Hugging Face

https://huggingface.co/Qwen/Qwen-Image