中国の大手テクノロジー企業であるテンセントが開発する汎用マルチモーダル大規模言語モデル(LLM)ファミリー「Tencent HY」から、テキスト・画像・動画からインタラクティブな3Dワールドを生成・再構築・シミュレーションすることができるマルチモーダル世界モデルの「HY-World 2.0」がオープンソース化されました。

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

(PDFファイル)https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf

HY-World 2.0はテキスト・画像・動画からインタラクティブな3Dワールドを生成・再構築・シミュレーションすることができるマルチモーダル世界モデルです。出力はゲームエンジンやエンボディドシミュレーションパイプラインに統合することが可能。

ワンクリックでテキストや画像を自動でインタラクティブな3Dワールドに変換することができます。また、UnityやUnreal Engineといったゲームエンジン向けの編集可能な3Dワールドを出力可能。出力される3Dワールドは標準的な3Dエクスポート(メッシュ、3DGS、ポイントクラウド)を含みます。インタラクティブなキャラクターモードをサポートしており、生成した3Dワールドをリアルタイムで探索することも可能です。





画面右下の画像を入力して生成した3Dワールドが以下。



「Generate a retro voxel-style room with a fireplace」(暖炉を備えたレトロなボクセルスタイルの部屋を生成して)というプロンプトで生成された3Dワールドが以下。



3つの画像を入力してベッドルームを生成。



生成した3Dワールドの雰囲気をボタン一発で変更する事も可能。



HY-World 2.0には、単一画像から高忠実度の3Dワールドのためのパノラマ生成をスケールアップできる「HY-Pano 2.0」、VLMとナビメッシュを組み合わせた意味理解に基づいた軌道計画を行い衝突を回避しながら一貫した探索を実現する「WorldNav」、潜在空間でのキーフレームベースのワールド拡張により空間的に一貫したメモリを維持しつつ安定した新規視点生成を可能する「WorldStereo 2.0」、複数視点からの予測を統合して正確でナビゲーション可能な3DGSアセットを生成することが可能な統合的3D再構築手法「WorldMirror 2.0」、ライティングや衝突処理に対応したインタラクティブ探索のための高性能エンジン非依存の3DGSレンダラー「WorldLens」などが含まれます。





HY-World 2.0はHugging Faceからダウンロード可能。

tencent/HY-World-2.0 · Hugging Face

https://huggingface.co/tencent/HY-World-2.0



GitHub上でも公開されています。

GitHub - Tencent-Hunyuan/HY-World-2.0: HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds · GitHub

https://github.com/Tencent-Hunyuan/HY-World-2.0