中国の大手IT企業であるTencentが、単一の画像やテキストのプロンプトから高精度の3Dアセットを生成するAIシステム「Hunyuan3D 2.0」を発表しました。「Hunyuan3D 2.0」のソースコードは、AIプラットフォームのHugging Faceでオープンソースとして公開されています。



tencent/Hunyuan3D-2 · Hugging Face

https://huggingface.co/tencent/Hunyuan3D-2

Tencent introduces 'Hunyuan3D 2.0,' AI that speeds up 3D design from days to seconds | VentureBeat

https://venturebeat.com/ai/tencent-introduces-hunyuan3d-2-0-ai-that-speeds-up-3d-design-from-days-to-seconds/

「Hunyuan3D 2.0」は2024年に登場したHunyuan3D 1.0の最新バージョンであり、アセットの形状を生成する「Hunyuan3D-DiT」と、テクスチャーを合成する「Hunyuan3D-Paint」という2つの基本コンポーネントによって構成されています。

「Hunyuan3D-DiT」は拡散モデルとTranformerを組み合わせたDiffusion Transformerに基づいて構築された形状生成モデルであり、入力された画像やプロンプトに適切に合致する形状を生成します。そして「Hunyuan3D-Paint」は、生成されたメッシュまたは手動で作成されたメッシュに対して、高解像度で鮮やかなテクスチャーマップを生成するとのことです。



以下の図は、一番左の画像を入力として与え、複数の形状生成モデルで作り出した3D形状データ(ジオメトリ)を比較したもの。その他の形状生成モデルと比較して、一番右の「Hunyuan3D-DiT」が生成した3Dジオメトリはかなりクオリティが高いことがわかります。



また、以下は同じ3Dジオメトリを基にして、異なるテクスチャー合成モデルでテクスチャーを生成したもの。一番右の「Hunyuan3D-Paint」が生成したテクスチャーは、その他のモデルと比較して色合いや塗り分けが自然なことがうかがえます。



他のオープンソースやクローズドの3D生成モデルと「Hunyuan3D 2.0」のパフォーマンスを、各種ベンチマークで比較した結果が以下。「Hunyuan3D 2.0」は客観的なベンチマークで高い性能を示しているとTencentは主張しています。



「Hunyuan3D 2.0」の事前学習済みモデルはHugging Faceの公式ページでダウンロードすることが可能。テクノロジー系メディアのVentureBeatは、「TencentはHugging Faceを通じて、システムのほぼすべての部分を共有しています。開発者はプロフェッショナルな環境ですぐに使えるように、このコードを使用して標準の設計ソフトウェアと連携する3Dモデルを作成可能になりました」と述べました。