中国企業のSenseTimeが画像生成AI「SenseNova U1」をオープンモデルとして公開しました。SenseNova U1は既存の高性能オープンモデルより軽量かつ高性能なのが特徴で、画像生成と画像編集の両方に対応しています。また、インフォグラフィックや連続性のある画像の生成も可能です。

SenseTime Fully Open-Sources SenseNova U1: A Unified Model for Understanding and Generation-News and Blog-SenseTime

https://www.sensetime.com/en/news-detail/51170629

GitHub - OpenSenseNova/SenseNova-U1: SenseNova-U series: Native Unified Paradigm with NEO-Unify from the First Principles · GitHub

https://github.com/OpenSenseNova/SenseNova-U1

既存の画像生成AIは「ノイズから画像を生成する拡散モデル」「プロンプトのテキストと画像の橋渡しを担うテキストエンコーダー」「人間用の画像とAI用の画像の変換処理を担うVAE」といった複数のAIモデルを連携させて画像を生成しています。以下の画像はZ-Image-Turboで画像を生成するためのComfyUIワークフローの一部で、拡散モデルとして「z_image_turbo_bf16.safetensors」、テキストエンコーダーとして「qwen_3_4b.safetensors」、VAEとして「ae.safetensors」を読み込んでいることが分かります。



SenseTimeによると、複数のモデルを連携させる生成方式では「モデル間でデータを受け渡す際に完全性が損なわれる」という問題があるとのこと。各種画像生成モデルは問題を緩和するためにモデルの規模を大きくしています。SenseNova U1はVAEやテキストエンコーダーを必要とせず、単一モデルで生成処理を実行できるように設計されており、モデルの規模を既存モデルより小さく抑えつつ生成画像の品質を高くすることに成功しています。



SenseNova U1のGitHubリポジトリには生成画像のサンプル集が用意されています。生成画像の例は以下の通り。



インフォグラフィックも生成できます。



画像の編集も可能。



また、1つのプロンプトから連続性のある画像を生成することもできます。



SenseNova U1のパラメーター数は80億で、NVIDIA GeForce RTX 5090などの家庭用GPUでも実行可能です。NVIDIA GeForce RTX 5090で2048×2048ピクセルの画像を生成する場合、生成前の処理時間は0.415秒、生成時間は23.04秒です。



Qwen-Image-2512やZ-Imageといった高性能オープンモデルと比べてモデルの規模が小さく、生成時間も短くなっています。



生成画像の品質を測定するベンチマークテストではQwen-Image-2512やZ-Imageより高いスコアを記録しています。



テキストを含む画像の品質テストもQwen-Image-2512やZ-Imageより高いスコアを記録しました。



以下のグラフは横軸が生成時間、縦軸が生成画像の品質スコアを示しています。SenseNova U1が他のオープンモデルと比べて高性能かつ高品質であることが分かります。



SenseNova U1はベースモデルの「SenseNova-U1-8B-MoT」と強化学習済みモデルのSenseNova-U1-8B-MoT-SFTがHugging Faceで配布されています。ライセンスはApache License 2.0です。

sensenova/SenseNova-U1-8B-MoT · Hugging Face

https://huggingface.co/sensenova/SenseNova-U1-8B-MoT

sensenova/SenseNova-U1-8B-MoT-SFT · Hugging Face

https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-SFT

SenseTimeはSenseNova U1シリーズの大規模版などを今後公開予定としています。