NVIDIAリサーチの最新研究「LATTE3D」とは?生成AIでテキストから3Dモデルを1秒以内に創造するデモを公開
NVIDIA「GTC 2024」が3月18〜21日にシリコンバレーで開催されました。期間中、報道陣限定でNVIDIAの各プロダクトのVPやGMなどの担当者と様々なセッションを受けます。例えば、皆さんご存じのNVIDIAの創業者/CEOのジェンスン・フアン氏とのQ&Aセッションの時間なども用意されています(かなり面白いです)。
報道陣からの質問に丁寧に答えるジェンスン・フアン氏その中の一つに、新しい技術に取り組むNVIDIAの研究機関「NVIDIA Research」の取り組みを聞くセッションもあって、報道陣にはとても人気があります。今、NVIDIAが研究開発中のプロジェクトを垣間見ることができるのですから当然ですね(守秘や情報解禁の設定がされているケースもあります)。
今回、その中で紹介された最新技術のひとつが「LATTE3D」です。NVIDIA のAI研究担当 バイスプレジデント、サンジャ・フィドラー(Sanja Fidler)氏が発表しました(冒頭の写真:NVIDIAの人がみんな革ジャン着ているわけではありません)。
「NVIDIA Research」が研究しているAI技術のひとつ「LATTE3D」で生成した3Dモデル
「スケート ボードの上に折り紙のスフィンクス猫」ベースのデザイン(左)が生成されたら、右の折り紙デザインのテクスチャーが加えられる。出典:NVIDIA
「あみぐるみ鶴」 出典:NVIDIA
●生成AIを活用した「LATTE3D」とは
「LATTE3D」(ラテ・スリーディー)はLarge-scale Amortized Text-To-Enhanced3D Synthesisの略称。今、最もホットな話題のひとつ「生成AI」を活用した技術です。テキスト プロンプトで入力した内容から、仮想世界向けの高品質の3Dモデルに素早く生成します。最新の「text-to-3D AI生成モデル」と呼ばれ、更に高速性能が向上させ、1〜5秒程度。速いアイテムは1秒以内で瞬時に生成するデモを報道陣に公開しました。NVIDIA Researchのデモでは NVIDIA RTX A6000 などの単一GPUで推論を実行していたようです。■ LATTE3D Text to 3D Generative AI Model from NVIDIA Research:
もうひとつ特筆すべき特徴は、生成された3Dモデルが標準的なレンダリング・アプリケーションで使用できる一般的フォーマットで作成されることです。ビデオゲームや広告キャンペーン、デザイン・プロジェクト、またはロボティクスのバーチャルなトレーニング場を開発するためのデジタルツインや仮想環境に簡単に組み込む込んで活用することができます。
出典:NVIDIA同研究所のAIラボ チームは、「1年前、AIモデルがこの品質の3Dビジュアルを生成するのに1時間程度かかりました。しかし、現在の最先端技術では約10〜12秒で可能です」と語っています。「更に、最新では一桁速く結果を生成できるようになり、ほぼリアルタイムで、テキスト入力から3Dモデルへの生成が可能となり、あらゆる業界のクリエイターへ届けられるようになっています」と続けました。
●テキストで指示するといろいろなパターンの3Dモデルを瞬時に生成
ゼロからデザインを創造したり、3Dアセット・ライブラリを調べたりする代わりに、クリエイターは「LATTE3D」を使用して、アイデアが頭に浮かんだらテキスト入力で指示してすぐに詳細なオブジェクトを生成できます。
生成されたモデルが気に入らなければ、修正内容をテキストで入力するだけです。コードを書く必要はもちろんなく、AIはデザイナーが提案するように各テキスト・プロンプトに応じたデザインの3Dモデルを瞬時に生成して提案してきます。デザインにが気に入れば、オブジェクトを数分以内に高品質になるよう最適化します。その後、ユーザーはその形状をグラフィックス・ソフトウェア・アプリケーションや、Universal Scene Description (OpenUSD) ベースの3Dワークフローやアプリケーションを可能にするNVIDIA Omniverse などのプラットフォームに書き出すことができます。
出典:NVIDIA研究者は2つの特定のデータセット (動物と日常の物体) で「LATTE3D」をトレーニングしたといいます。開発者は同じモデル・アーキテクチャを使用して他のデータ・タイプでAIを更にトレーニングすることもできます。
NVIDIAがあげたユースケースでは、「LATTE3D」を3D植物のデータセットでトレーニングすると、造園設計者がクライアントとブレインストーミングをしながら、庭園のレンダリングに木、花の咲く低木などをすばやく配置することができるということです。家庭用オブジェクトでトレーニングした場合は、AIモデルは家の3Dシミュレーションを構成するためのアイテムを生成でき、開発者はパーソナル・アシスタント・ロボットを現実世界でテストや展開する前に、様々なアイテムや環境を生成した仮想環境でシミュレーションとトレーニングができます。
NVIDIAのブログで公開された情報によれば、「LATTE3D」は、「NVIDIA A100 Tensorコア GPU」を使用してトレーニングされたとのことです。3D形状に加えて、モデルはChatGPT を使用して生成された多様なテキスト・プロンプトでトレーニングされており、ユーザーが特定の3Dオブジェクトを生成するのに適切な説明方法を、思いつくさまざまなフレーズで処理するAIモデルの能力が向上しています。たとえば、さまざまなイヌ科の種をフィーチャーしたプロンプトは、すべて犬のような形状を生成する必要があることを理解できます。
NVIDIA Research は世界中の科学者とエンジニア、数百人体制で構成されており、そのチームはAI、コンピューター・グラフィックス、コンピューター・ビジョン、自動運転、ロボティクスなどのトピックに重点を置いて、研究しているとのことです。
報道陣からの質問に丁寧に答えるジェンスン・フアン氏その中の一つに、新しい技術に取り組むNVIDIAの研究機関「NVIDIA Research」の取り組みを聞くセッションもあって、報道陣にはとても人気があります。今、NVIDIAが研究開発中のプロジェクトを垣間見ることができるのですから当然ですね(守秘や情報解禁の設定がされているケースもあります)。
今回、その中で紹介された最新技術のひとつが「LATTE3D」です。NVIDIA のAI研究担当 バイスプレジデント、サンジャ・フィドラー(Sanja Fidler)氏が発表しました(冒頭の写真:NVIDIAの人がみんな革ジャン着ているわけではありません)。
「NVIDIA Research」が研究しているAI技術のひとつ「LATTE3D」で生成した3Dモデル
「スケート ボードの上に折り紙のスフィンクス猫」ベースのデザイン(左)が生成されたら、右の折り紙デザインのテクスチャーが加えられる。出典:NVIDIA
「あみぐるみ鶴」 出典:NVIDIA
●生成AIを活用した「LATTE3D」とは
「LATTE3D」(ラテ・スリーディー)はLarge-scale Amortized Text-To-Enhanced3D Synthesisの略称。今、最もホットな話題のひとつ「生成AI」を活用した技術です。テキスト プロンプトで入力した内容から、仮想世界向けの高品質の3Dモデルに素早く生成します。最新の「text-to-3D AI生成モデル」と呼ばれ、更に高速性能が向上させ、1〜5秒程度。速いアイテムは1秒以内で瞬時に生成するデモを報道陣に公開しました。NVIDIA Researchのデモでは NVIDIA RTX A6000 などの単一GPUで推論を実行していたようです。■ LATTE3D Text to 3D Generative AI Model from NVIDIA Research:
もうひとつ特筆すべき特徴は、生成された3Dモデルが標準的なレンダリング・アプリケーションで使用できる一般的フォーマットで作成されることです。ビデオゲームや広告キャンペーン、デザイン・プロジェクト、またはロボティクスのバーチャルなトレーニング場を開発するためのデジタルツインや仮想環境に簡単に組み込む込んで活用することができます。
出典:NVIDIA同研究所のAIラボ チームは、「1年前、AIモデルがこの品質の3Dビジュアルを生成するのに1時間程度かかりました。しかし、現在の最先端技術では約10〜12秒で可能です」と語っています。「更に、最新では一桁速く結果を生成できるようになり、ほぼリアルタイムで、テキスト入力から3Dモデルへの生成が可能となり、あらゆる業界のクリエイターへ届けられるようになっています」と続けました。
●テキストで指示するといろいろなパターンの3Dモデルを瞬時に生成
ゼロからデザインを創造したり、3Dアセット・ライブラリを調べたりする代わりに、クリエイターは「LATTE3D」を使用して、アイデアが頭に浮かんだらテキスト入力で指示してすぐに詳細なオブジェクトを生成できます。
生成されたモデルが気に入らなければ、修正内容をテキストで入力するだけです。コードを書く必要はもちろんなく、AIはデザイナーが提案するように各テキスト・プロンプトに応じたデザインの3Dモデルを瞬時に生成して提案してきます。デザインにが気に入れば、オブジェクトを数分以内に高品質になるよう最適化します。その後、ユーザーはその形状をグラフィックス・ソフトウェア・アプリケーションや、Universal Scene Description (OpenUSD) ベースの3Dワークフローやアプリケーションを可能にするNVIDIA Omniverse などのプラットフォームに書き出すことができます。
出典:NVIDIA研究者は2つの特定のデータセット (動物と日常の物体) で「LATTE3D」をトレーニングしたといいます。開発者は同じモデル・アーキテクチャを使用して他のデータ・タイプでAIを更にトレーニングすることもできます。
NVIDIAがあげたユースケースでは、「LATTE3D」を3D植物のデータセットでトレーニングすると、造園設計者がクライアントとブレインストーミングをしながら、庭園のレンダリングに木、花の咲く低木などをすばやく配置することができるということです。家庭用オブジェクトでトレーニングした場合は、AIモデルは家の3Dシミュレーションを構成するためのアイテムを生成でき、開発者はパーソナル・アシスタント・ロボットを現実世界でテストや展開する前に、様々なアイテムや環境を生成した仮想環境でシミュレーションとトレーニングができます。
NVIDIAのブログで公開された情報によれば、「LATTE3D」は、「NVIDIA A100 Tensorコア GPU」を使用してトレーニングされたとのことです。3D形状に加えて、モデルはChatGPT を使用して生成された多様なテキスト・プロンプトでトレーニングされており、ユーザーが特定の3Dオブジェクトを生成するのに適切な説明方法を、思いつくさまざまなフレーズで処理するAIモデルの能力が向上しています。たとえば、さまざまなイヌ科の種をフィーチャーしたプロンプトは、すべて犬のような形状を生成する必要があることを理解できます。
NVIDIA Research は世界中の科学者とエンジニア、数百人体制で構成されており、そのチームはAI、コンピューター・グラフィックス、コンピューター・ビジョン、自動運転、ロボティクスなどのトピックに重点を置いて、研究しているとのことです。
GTC 2024 関連記事:
NVIDIAがヒューマノイド開発に注力する理由「Jetson Thor」について聞く 自律型マシン事業VP 単独インタビュー NVIDIA 大規模言語モデルと生成AIにも特化した「Blackwell プラットフォーム」とは 性能向上は最大30倍、コスト/エネルギー消費は最大1/25に NVIDIA 自動運転開発環境に生成AI対応の次世代Blackwellアーキテクチャ搭載「DRIVE Thor」を採用 世界最大のEVメーカーBYDとの連携強化 NVIDIA ヒューマノイド・マニピュレータ・自動搬送ロボット向けに「Isaacのメジャーアップデート」を発表 安川電機が「GTC 2024」でデモ展示 NVIDIAがヒューマノイド開発プラットフォーム提供を発表 ディズニーの二足歩行ロボットが登壇 Jetson Orinから次世代Thorへ VIDIAが量子コンピュータ開発を支援する「NVIDIA Quantum Cloud」開始 暗号化にGPUの並列処理を活用する「cuPQC」も 「GTC 2024」展示ホールはヒューマノイドなど次世代の情報を求めて超満員 現地の様子を写真と動画で体験 いよいよ明日開幕!世界最大級のAIとGPUイベント「NVIDIA GTC 2024」現地直前レポート、サンノゼの青空の下で 世界最大級のAIとGPUイベント「NVIDIA GTC 2024」リアル/オンラインで開催 GTCの全容と日本から参加できる見どころ徹底解説 NVIDIA 日本向けイベント「Japan AI Day」3/22にオンライン開催 生成AI・LLM・デジタルツイン・エッジAIなど12講演 大手企業も登壇 NVIDIA GTC2024関連記事(ロボスタ)