AlibabaのAI開発チームであるQwenが画像生成AI「Qwen VLo」を2025年6月26日(木)に発表しました。Qwen VLoは画像内に含まれるコンテンツ理解力が高く、正確な画像編集が可能とのこと。また、プログレッシブ生成手法を採用しており、左上から順番に画像が生成されるのも大きな特徴です。

Qwen VLo: From "Understanding" the World to "Depicting" It | Qwen

https://qwenlm.github.io/blog/qwen-vlo/

Qwen VLoの画像生成過程を示すデモ映像が以下。既存の画像生成AIモデルの多くは「画像全体を粗く描写し、段階的に高精細にしていく」という生成手法を採用していますが、Qwen VLoはプログレッシブ生成手法を採用しており、画像が左から右、上から下へと段階的に生成されます。Qwen VLoは画像の生成中に予測内容を継続的に改良・最適化しており、最終的な生成結果の一貫性を確保しています。開発チームはプログレッシブ生成手法について「視覚的な品質を向上させるだけでなく、ユーザーに柔軟かつ制御可能なクリエイティブ体験を提供できる」とアピールしています。

Alibabaの画像生成AI「Qwen VLo」が画像を生成する様子 - YouTube

Qwen VLoはチャットAI「Qwen Chat」内で利用可能です。言語は中国語と英語に対応しており、テキストからの画像生成だけでなく、画像を入力して編集することもできます。



Qwen VLoは画像内のコンテンツを認識する能力が従来モデルと比べて強化されており、「車の色を赤色に変更」といった自然言語での指示を理解して編集結果へ正確に反映することができます。

開発チームが示した「Qwen VLoを用いた画像編集の例」が以下。まず、元画像はこんな感じ。



「变成真实照片(実写に変更)」と指示すると「白いTシャツを着たクマが座ってスイカを食べている」という状況はそのままに実写風の画像になりました。



「背景换成艾弗尔铁塔(背景をエッフェル塔に変更)」と指示すると背景が指示通りに変化します。



「变成气球飘到空中(宙に浮くバルーンに変更)」と入力するとこんな感じ。簡潔な指示ですが、うまくクマ部分だけをバルーン化できています。



Qwen VLoは記事作成時点ではプレビュー段階で、「プロンプトとの不一致」や「元の画像との不一致」といった問題が発生する可能性があるとのこと。開発チームは今後もモデルの改善に努める姿勢を示しています。