大規模言語モデルが言語を話す仕組みを利用して3Dオブジェクトを生成するAI「MeshGPT」が登場しました。

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

https://nihalsid.github.io/mesh-gpt/

[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

https://arxiv.org/abs/2311.15475

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers - YouTube

大規模言語モデルは言語を話せるほか、トレーニング次第ではプログラミング言語を「話す」ことが可能になります。



そこで研究チームはモデルに対し、3Dオブジェクトの構成要素であるメッシュを「話す」ことができるようにトレーニングを行いました。



具体的なトレーニングの手法はこんな感じ。まずはさまざまな3Dオブジェクトのデータを元にメッシュの「語彙(ごい)」を学ばせ、次に学習した語彙に基づいてTransformerをトレーニングしています。



語彙学習の仕組みは下図の通り。ニューラルネットワークがメッシュのジオメトリやトポロジーの情報を扱えるようにしています。



語彙学習の後、大規模言語モデルに単語と単語のつながりを覚えさせるのと同様に、Transformerにメッシュとメッシュのつながりを覚えさせます。



大規模言語モデルが文章の続きを書けるのと同じように、MeshGPTはモデルの一部を元に残りの部分を完成させることが可能。



MeshGPTは他の手法に比べて頂点の数が多すぎたり少なすぎたりせず、適度にディテールのあるモデルを生成することができるとのこと。



生成物の品質を示すFIDスコアが30ポイント向上したり、形状カバレッジが9%増加したりするなど、MeshGPTはメッシュの生成を大きく改善できたと述べられています。