オーストラリアや中国の研究チームが、大規模言語モデルと2Dアニメーションや3DCGの製作ツールであるBlenderを組み合わせ、人間が自然言語で入力した文章を適切に解釈して高精度な3Dコンテンツを作り出すフレームワーク「3D-GPT」を発表しました。

[2310.12945] 3D-GPT: Procedural 3D Modeling with Large Language Models

https://arxiv.org/abs/2310.12945

05

3D-GPT: 3D MODELING WITH LARGE LANGUAGE MODELS

https://chuny1.github.io/3DGPT/3dgpt.html

3D-GPT generates 3D worlds in Blender

https://the-decoder.com/3d-gpt-generates-3d-worlds-in-blender/

基本的なルールやセットに基づいて3Dモデルやテクスチャを生成する手続き型モデリングは、効率的なコンテンツの作成を追求する上で有望な選択肢となっています。しかし、手続き型モデリングを実行するにはルールやアルゴリズム、パラメータについての理解が必要であり、人間のクリエイターにとって手続き型モデリングの作業は負担が大きいという問題があります。

そこで研究チームは、命令駆動型3Dモデリングに大規模言語モデルを使用するフレームワーク「3D-GPT」を開発しました。3D-GPTでは大規模言語モデルが「熟練した問題解決者」の役割を担い、3Dモデリングに必要なタスクを管理可能なセグメントに分割し、それぞれ適切なエージェントが作業を実行するとのこと。

3D-GPTは主に「タスクディスパッチエージェント」「概念化エージェント」「モデリングエージェント」という3つのエージェントで構成されています。タスクディスパッチエージェントは、人間が入力したプロンプトを受け取り、後続の処理に必要な関数を指示し、残り2つのエージェント間の協力を促進するとのこと。概念化エージェントは、人間のプロンプトに含まれていないが3Dコンテンツ生成に必要な記述を補足するための推論を行い、モデリングエージェントがBlenderのAPIを呼び出すためのPythonコード生成といった処理を行います。

これらのエージェントが協調することで、人間が入力したシーンについての説明を体系的に強化し、その後の人間の指示に基づいてテキストを動的に適応させることが可能だと研究チームは説明しました。

以下は、実際に3D-GPTに入力したテキストと、生成された3Dコンテンツを組み合わせた動画です。いずれもかなり高い精度で、シーンが3Dで生成されていることがわかります。

「The desert, an endless sea of shifting sands, stretched to the horizon, its ripping dunes catching the golden rays of the setting sun, creating an ever-changing landscape of shadows and light.(果てしなく続く砂の海である砂漠が、地平線まで続いている。波打つ砂丘が夕日の金色の光を受けて、影と光が刻々と変化する風景を生み出している)」というテキストから生成された動画がこれ。

大規模言語モデルを用いて3Dコンテンツの手続き型モデリングを実現するフレームワーク「3D-GPT」が登場 - YouTube

「The lake, serene and glassy, mirrored the cloudless sky above, reflecting the surrounding mountains and graceful flight of a heron, as lily pads floated like emerald jewels upon its tranquil surface.(静かな湖面はガラス張りのようで、雲ひとつない空や周囲の山々、優雅に飛ぶサギを映し出している。その静かな湖面には、エメラルドの宝石のようなスズランが浮かんでいる)」というテキストから生成された動画がこれ。

大規模言語モデルを用いて3Dコンテンツの手続き型モデリングを実現するフレームワーク「3D-GPT」が登場 - YouTube

研究チームは、「私たちの実証的な調査により、3D-GPTが命令を解釈して実行し、信頼できる結果をもたらすだけでなく、人間のデザイナーと効果的に協力することが確認されました。さらに、3D-GPTはBlenderとシームレスに統合され、操作の可能性を広げます。私たちの研究は、3Dモデリングにおける大規模言語モデルの可能性を強調し、シーンとアニメーション生成の将来の進歩に向けた基本的な枠組みをもたらします」と述べました。