1枚の画像から生成した3Dシーンの中で視点が移動する動画を生成可能な「HunyuanWorld-Voyager」

中国の大手IT企業であるテンセントが、単一の画像から世界の整合性が取れた3Dシーンを生成するAIフレームワーク「HunyuanWorld-Voyager」をGitHubで公開しました。HunyuanWorld-Voyagerはコンテキストを保ったシーン拡張を実現し、生成した3Dシーンの中で視点を移動する動画を生成することが可能です。
GitHub - Tencent-Hunyuan/HunyuanWorld-Voyager: Voyager is an interactive RGBD video generation model conditioned on camera trajectory, and supports real-time 3D reconstruction.

HunyuanWorld-Voyagerは任意の動画のカメラポーズ推定とメトリック深度予測を自動化する再構成パイプラインを利用し、実世界のキャプチャ画像とUnreal Engineによる合成レンダリング画像を組み合わせた、10万本以上の動画クリップからなるデータセットで学習した3Dシーン生成AIフレームワークです。
HunyuanWorld-Voyagerは以下の2つの主要コンポーネントで構成されています。
1:入力された画像に基づいて、RGBと深度がそろった動画シーケンスを生成し、一貫性を確保する統合アーキテクチャ。
2:効率的なワールドのキャッシュおよびポイントの除去、さらに文脈認識型の一貫性を備えた反復的シーン拡張のための、滑らかな動画サンプリングを用いた自己回帰推論。
これらのコンポーネントにより、HunyuanWorld-Voyagerは単一の画像から整合性がとれた3Dシーンを生成し、その中でカメラを移動した動画を生成することもできます。また、生成した3Dシーンを基に3D点群(ポイントクラウド)を再構築することも可能です。
GitHubでは、実際にHunyuanWorld-Voyagerへ入力した画像と、それに基づいて生成された動画が公開されています。以下がHunyuanWorld-Voyagerに入力された画像で、右下の図は3Dシーン内でのカメラの動きを表しています。カメラの動きはユーザーが指定することが可能。

生成された動画が以下。
「HunyuanWorld-Voyager」で生成された3Dシーン内をカメラが移動する様子01 - YouTube
次に入力するのは以下の画像。

生成された動画はこんな感じになりました。
「HunyuanWorld-Voyager」で生成された3Dシーン内をカメラが移動する様子02 - YouTube
また、HunyuanWorld-Voyagerが生成した動画から再構築した3D点群が以下。大ざっぱではありますが、確かに3D点群が再構築できているのが確認できます。
「HunyuanWorld-Voyager」で生成された動画から再構築した3D点群 - YouTube
