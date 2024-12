テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

https://trellis3d.github.io/[2412.01506] Structured 3D Latents for Scalable and Versatile 3D Generationhttps://arxiv.org/abs/2412.01506SLATの革新的な点は「3Dオブジェクトの表面のみに注目することで効率的なデータ処理を実現し、かつ1つの表現から複数の形式の3Dアセットを生成できること」です。これによって、高品質な3Dアセットの生成がより簡単になります。SLATは、基本構造として643=約26万ボクセルのまばらな3Dグリッドを使用します。ただし、この中で実際に使用するのは3Dオブジェクトの表面に位置する約2万個のボクセルだけです。各ボクセルからは、ボクセルが3D空間のどこにあるかを示す「位置情報」と、その場所の形状・色・質感などを表す「特徴情報」の2つが得られます。SLATは、3Dオブジェクトを様々な角度から観察して得られる画像からDINOv2という画像認識モデルを使って特徴を抽出し、各ボクセルの位置に対応する特徴を集めて平均化して取得します。そして、得られたデータから異なる種類の3Dモデルを生成し、さらに用途に応じて最適な形式を選択できます。また、特定の部分だけを変更する編集も容易です。このSLATによる表現を使用して3Dアセットを生成するために開発されたモデルがTRELLISです。TRELLISはBasic(3.42億パラメータ)、Large(11億パラメータ)、X-Large(20億パラメータ)の3つのモデルサイズが開発され、64台のA100 GPUを使用して40万ステップ・バッチサイズ256で訓練されています。研究チームによれば、モデルサイズが大きくなるほど生成品質は向上するとのこと。テキストはCLIPを通して特徴量に変換され、独自に開発されたRectified Flow Transformerによって3Dグリッドを生成します。研究チームは、このアプローチは一般的な拡散モデルと比べて効率的な学習が可能で、テキストや画像の条件付け生成に適していると述べています。実際にGPT-4で生成したテキストから生成した3Dモデルが以下の通り。TRELLISで作成したTRELLISのロゴはこんな感じ。また、Hugging Faceで公開されているデモでは、画像から3Dアセットを生成することが可能です。TRELLIS - a Hugging Face Space by JeffreyXianghttps://huggingface.co/spaces/JeffreyXiang/TRELLISデモのページ下部にある「Examples」には、入力する画像の例が並んでいます。今回は家の画像を選んでみました。すると、家の画像がTRELLISのデモに入力されるので、「Generate」をクリック。すると、右側に3Dアセットの動画が生成されました。さらに左下の「Extract GLB」をクリック。動画の下に、3Dアセットが表示されました。生成された3DアセットはGLBファイルで保存することが可能です。