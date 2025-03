NVIDIAがヒューマノイド(人型)ロボット開発を目的としたオープン基盤モデル「Isaac GR00T N1」を、2025年3月17日から開催されているNVIDIAの開発者会議「 GTC AI カンファレンス 2025 」で発表しました。Isaac GR00T N1は言語や画像を処理し、多様な環境での操作タスクを実行できる二重システムアーキテクチャを採用したモデルで、物体操作や腕間での受け渡しなど様々なタスクを単一のモデルで実行できます。

Accelerate Generalist Humanoid Robot Development with NVIDIA Isaac GR00T N1 | NVIDIA Technical Bloghttps://developer.nvidia.com/blog/accelerate-generalist-humanoid-robot-development-with-nvidia-isaac-gr00t-n1/NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots - YouTubeヒューマノイドロボットは人間の作業空間に適応し、反復的または要求の厳しいタスクを行うように設計されていますが、多様なタスクや予測不能な環境に対応する汎用(はんよう)型ロボットの開発は困難です。従来はタスクごとに専用のAIモデルが必要で、それらを一から訓練するには膨大なデータ、高い計算コスト、限られた汎用性という課題がありました。Isaac GR00T N1はこれらの課題に対処するために、言語や画像などのマルチモーダル入力を受け取り、多様な環境での操作タスクを実行できる「クロスエンボディメント」モデル。一度訓練したモデルを様々な形状や特性を持つヒューマノイドロボットに適用でき、それぞれのロボットに合わせて大規模な再訓練をする必要がなく、開発コストと時間を大幅に削減できるというのが大きなメリットです。Isaac GR00T N1は人間の認知にインスピレーションを得た二重システムアーキテクチャを採用しており、反射的行動や簡単な計算などの高速思考を行う「System 1」と、論理的推論や慎重な意志決定などの低速思考を行う「System 2」で構成されています。System 1は、NVIDIAのマルチモーダル大規模言語モデル「Eagle」とHugging Faceのテキスト抽出特化モデル「SmolLM-1.7B」をベースとする視覚言語モデルで、環境と指示を解釈してロボットが適切な行動を計画できるようにします。System 2は拡散トランスフォーマーで、System 2で作成した行動計画を精密な連続的なロボットの動きに変換します。Isaac GR00T N1で動作するヒューマノイドロボットが動作する様子は以下のムービーから見ることができます。左側のロボットはオブジェクトをコップに入れて隣に手渡し、右側のロボットはオブジェクトをコップから取り出して、コップと別の箱に収納しています。NVIDIA Isaac GR00T N1 for Complex Manipulation Tasks - YouTubeIsaac GR00T N1は、NVIDIAが提供するSimReadyのデータ、Isaac SimやIsaac Labなどのシミュレーションフレームワーク、合成データ設計図、そして事前訓練されたモデルを組み合わせて開発されています。NVIDIAによれば、6500時間分(約9ヶ月分)の人間のデモンストレーションデータに相当する75万の合成軌道を、わずか11時間で生成したとのことで、これらの合成データと人間の動きを取り込んだ実データを統合することで、実データのみを使用した場合と比較して40%のパフォーマンス向上を実現したそうです。Isaac GR00T N1の2B(パラメータ数20億)モデルは一般に公開されており、開発者はHugging Faceからアクセスできます。また、サンプルデータセットとPyTorchスクリプトもGitHubで提供されています。nvidia/GR00T-N1-2B · Hugging Facehttps://huggingface.co/nvidia/GR00T-N1-2B