NVIDIAが日本時間の2026年6月1日にフィジカルAIの基盤モデル群「Cosmos 3」を発表しました。Cosmos 3はロボットや自動運転での活用を目的としたモデル群で、画像生成モデル「Cosmos3-Super-Text2Image」と動画生成モデル「Cosmos3-Super-Image2Video」はオープンモデルとして最高性能を達成しています。

Cosmos 3 - Cosmos Lab

https://research.nvidia.com/labs/cosmos-lab/cosmos3/

NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI | NVIDIA Newsroom

https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-3-the-open-frontier-foundation-model-for-physical-ai

How Cosmos 3 Helps Physical AI Think Before It Acts | NVIDIA Blog

https://blogs.nvidia.com/blog/cosmos-3-physical-ai-open-world-foundation-model/

Cosmos 3はフィジカルAIの基盤モデル群で、記事作成時点では以下の5種類がオープンモデルとして公開されています。

Cosmos3-Nano:160億パラメーターのマルチモーダルモデル。テキスト・画像・動画・音声・動作の入出力に対応。

Cosmos3-Super:650億パラメーターのマルチモーダルモデル。テキスト・画像・動画・音声・動作の入出力に対応。

Cosmos3-Nano-Policy-DROID:160億パラメーターのマルチモーダルモデル。ロボットの動作制御が可能。

Cosmos3-Super-Text2Image:650億パラメーターの画像生成モデル。テキストから画像を生成する。

Cosmos3-Super-Image2Video:650億パラメーターの動画生成モデル。画像から動画を生成する。

研究者はCosmos 3シリーズのモデルを活用することで、現実世界で動作するロボットや自動運転車などを開発することができます。



Cosmos3-Super-Text2Imageの生成例が以下。



第三者機関のArtificial Analysisが実施したテストでは、2026年5月28日時点でCosmos3-Super-Text2Imageがオープンモデルの中で最も高性能なモデルと評価されています。Artificial Analysisのテストは「AIの名前を伏せた状態で生成画像の品質を人間に評価させる」という形式で実施されており、Cosmos3-Super-Text2Imageが「機械的なベンチマークテストではなく人間の審美眼で高品質と評価された」ということを示しています。



クローズドモデルを含むランキングでもNano Banana Proを超えて4位にランクインしました。



動画生成モデルのCosmos3-Super-Image2Videoもオープンモデルの中で最高性能と評価されています。



クローズドモデルも含めたランキングでは22位でした。



「Cosmos3-Nano」「Cosmos3-Super」「Cosmos3-Nano-Policy-DROID」「Cosmos3-Super-Text2Image」「Cosmos3-Super-Image2Video」の5種類は以下のリンク先で配布されています。また、リアルタイム処理を重視した「Cosmos3-Edge」が近日中に公開される予定です。

nvidia/Cosmos3-Nano · Hugging Face

https://huggingface.co/nvidia/Cosmos3-Nano

nvidia/Cosmos3-Super · Hugging Face

https://huggingface.co/nvidia/Cosmos3-Super

nvidia/Cosmos3-Nano-Policy-DROID · Hugging Face

https://huggingface.co/nvidia/Cosmos3-Nano-Policy-DROID

nvidia/Cosmos3-Super-Text2Image · Hugging Face

https://huggingface.co/nvidia/Cosmos3-Super-Text2Image

nvidia/Cosmos3-Super-Image2Video · Hugging Face

https://huggingface.co/nvidia/Cosmos3-Super-Image2Video

なお、NVIDIAのCosmosシリーズはロボットや自動運転車などでの活用を目的として開発されていますが、フィジカルAI以外の分野でも活用されています。例えば、高品質なイラストを生成できる「Anima」は「Cosmos-Predict2-2B-Text2Image」をベースに開発されています。

アニメ・イラストに強い画像生成AI「Anima」の正式版がついに登場、タグ・自然言語両対応でSDXLやIllustrious系モデルが動作するPCなら余裕でローカル実行可能 - GIGAZINE