NVIDIAがロボットや自動運転などフィジカルAI向け世界基盤モデル (WFM)「Cosoms」をリリース 先行採用企業も公表
また、OmniverseとCosmosプラットフォームを活用した2つの新しいブループリントもあわせて発表。これらは、事後トレーニングのためのロボットと自動運転車向けの大規模で制御可能な合成データ生成エンジンを開発者に提供する。
●先行採用の企業名を公表
1X、Agility Robotics、Figure AI、Foretellix、Skild AI、Uber などの業界の主要な企業は、フィジカル AI 向けのより豊富なトレーニング データをより迅速かつ大規模に生成するために、Cosmos の最初の採用企業となった。
NVIDIAの創業者/CEOであるジェンスン フアン (Jensen Huang) 氏は次のようにコメントしている。
大規模言語モデルが生成およびエージェント型 AI に革命をもたらしたように、Cosmos の世界基盤モデルはフィジカル AI にとって画期的な進歩です。Cosmos は、フィジカル AI 向けのオープンで完全にカスタマイズ可能なリーズ二ング モデルを提供し、ロボティクスと物理産業における段階的な機能の進歩の機会を解き放ちます。
●合成データ生成のためのCosmos Transfer
Cosmos Transfer WFMは、セグメンテーションマップ、深度マップ、LiDARスキャン、姿勢推定マップ、軌跡マップなどの構造化されたビデオ入力を取り込み、制御可能でフォトリアルなビデオ出力を生成する。
Cosmos Transfer は、認識 AI トレーニングを効率化し、Omniverseで作成された3Dシミュレーションやグラウンドトゥルースをフォトリアルなビデオに変換し、大規模で制御可能な合成データ生成を行う。
Agility Roboticsは、ロボットモデルのトレーニングに使用される大規模な合成データ生成のために、Cosmos TransferとOmniverseを早期に導入するとしている。
また、Agility Roboticsの最高技術責任者であるPras Velagapudi 氏は次のように述べている。Cosmos は、実世界で収集できる範囲を超えて、フォトリアルなトレーニング データを拡張する機会を提供します。当社がすでに持っている物理ベースのシミュレーション データを最大限に活用しながら、このプラットフォームでどのような新しいパフォーマンスを引き出すことができるか、楽しみにしています。
自動運転車シミュレーション用のNVIDIA Omniverse Blueprintは、Cosmos Transferを使用して、物理ベースのセンサーデータのバリエーションを増幅する。
Foretellixは、このブループリントを利用することで、多様な運転データセットに対して天候や照明などのさまざまな条件を調整し、行動シナリオを強化。また、Parallel Domainはこのブループリントを使用して、自社のセンサーシミュレーションに同様のバリエーションを適用している。
合成操作モーション生成のための「NVIDIA GR00T Blueprint」は、「Omniverse」と「Cosmos Transfer」を組み合わせることで、多様なデータセットを大規模に生成。OpenUSDを利用したシミュレーションを通じて、データ収集と拡張時間を数日から数時間に短縮することができる。
●インテリジェントな世界の生成のためのCosmos Predict
2025年1月に開催されたCESで発表されたCosmos Predict WFMは、テキスト、画像、動画などのマルチモーダル入力から仮想世界の状態を生成する。新しいCosmos Predictモデルは、開始および終了の入力画像が与えられた場合に、中間アクションやモーションの軌跡を予測するマルチフレーム生成を可能にする。事後トレーニング向けに特別に設計されたこれらのモデルは、NVIDIA が一般公開しているフィジカル AI データセットを使用してカスタマイズできる。
NVIDIA Grace Blackwell NVL72システムの推論計算能力と、その大規模なNVIDIA NVLinkドメインを活用することで、開発者はリアルタイムな世界生成を達成できる。
1Xは、Cosmos PredictとCosmos Transferを使用して、新しいヒューマノイドロボット、NEO Gammaをトレーニングしている。ロボットの頭脳を開発するSkild AIは、ロボット向けの合成データセットを増強するために、Cosmos Transferを活用している。さらに、NexarとOxaは、Cosmos Predictを使用して自社の自動運転システムをさらに発展させている。
●フィジカルAIのためのマルチモーダルリーズニング
Cosmos Reasonは、時空認識を備えたオープンで完全にカスタマイズ可能なWFM。思考連鎖のリーズ二ングを用いてビデオデータを理解し、人が横断歩道に足を踏み出す場合や、箱が棚から落ちる場合などの相互作用の影響を自然言語で予測する。
開発者は、Cosmos Reasonを使用して、フィジカルAIデータのアノテーションとキュレーションを向上させ、既存の世界基盤モデルを強化し、新しい視覚言語アクション モデルを作成することができる。また、事後トレーニング(追加学習)して、フィジカルAIにタスクを完了するために必要なことを指示するハイレベルプランナーを構築することもできる。
●フィジカルAIのデータキュレーションと事後トレーニングを高速化
ダウンストリームタスクに基づいて、開発者はネイティブPyTorchスクリプトまたはNVIDIA DGX Cloud上のNVIDIA NeMoフレームワークを使用して、Cosmos WFMを事後トレーニングできる。
Cosmosの開発者は、DGX Cloud上のNVIDIA NeMo Curatorを使用して、データ処理とキュレーションを高速化することもできる。Linker VisionとMilestone Systemsは、大量の動画データのキュレーションにこの機能を利用し、動画検索と要約のためのNVIDIA AI Blueprint上に構築されたビジュアル エージェント向けの大規模視覚言語モデルをトレーニングしている。Virtual Incisionは将来の手術用ロボットへの導入を検討しており、UberとWaabiはNemo Curatorを活用することで自動運転車の開発を推進している。
●責任ある AI とコンテンツの透明性を推進
NVIDIAの信頼可能なAI原則に沿って、NVIDIAはすべてのCosmos WFMでオープンなガードレールを適用している。さらに、NVIDIAはGoogle DeepMindと協力して SynthIDを統合し、build.nvidia.comで公開しているCosmos WFM NVIDIA NIMマイクロサービスから、AIが生成した出力に透かしを追加し、識別を支援する。
●提供予定
Cosmos WFMは、NVIDIA APIカタログでプレビュー可能であり、Google Cloud上のVertex AI Model Gardenに掲載されている。Cosmos PredictとCosmos Transferは、Hugging FaceとGitHubで一般公開されており、Cosmos Reasonは早期アクセスで利用可能となっている。
詳細については、NVIDIA GTCの基調講演のリプレイ
や、NVIDIA Research の生成AI担当バイスプレジデントであるMing-yu Liu氏による「Cosmos 世界基盤モデル入門」
など、NVIDIAと業界のリーダー企業によるCosmosのセッションを視聴して欲しい
