オックスフォード大学の研究チームとMetaのAI研究部門が、画像から3D情報を取り出す新しいAIモデル「VGGT」を発表しました。従来の技術では、3D情報を得るために複雑な計算処理が必要でしたが、VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。

VGGT: Visual Geometry Grounded Transformer

https://vgg-t.github.io/

[2503.11651] VGGT: Visual Geometry Grounded Transformer

https://arxiv.org/abs/2503.11651

VGGTは「Visual Geometry Grounded Transformer」の略で、従来の3Dコンピュータビジョン技術と異なり、単一のフィードフォワードニューラルネットワークで多様な3D情報を同時に処理できるのが特長です。VGTTは1枚から数百枚の画像を入力として、カメラパラメータ、深度マップ、ポイントマップ、3Dポイントトラックといった重要な3D属性をすべて直接推論可能。特に、従来の方法が必要としていた最適化プロセスを省略しながらも、1秒未満という短時間で高品質な3D再構築を実現しているとのこと。



VGGTには比較的シンプルな設計が採用されており、膨大な3Dアノテーション付きデータセットで訓練されています。VGGTでは、まず入力画像がDINOという技術を使ってパッチと呼ばれる小さな部分に分割され、トークンに変換されます。次に、これらのトークンに「カメラトークン」と呼ばれる特別な情報が追加されます。このカメラトークンはカメラの位置や向きを予測するための手がかりとなります。

その後、モデルの中心となる部分で、「フレームワイズアテンション」と「グローバルアテンション」という2つの仕組みが交互に働きます。フレームワイズアテンションは1枚の画像内の関係性を、グローバルアテンションは複数の画像間の関係性を捉え、単一の画像内の詳細と複数画像間の一貫性を両立させます。

最後に、処理された情報は「カメラヘッド」と「DPTヘッド」に送られます。カメラヘッドはカメラのパラメータを、DPTヘッドは深度マップやポイントマップ、物体追跡のための特徴を生成するシステムです。



実際にイタリア・ローマにあるコロッセオの空中撮影ムービーからVGGTが生成した3D情報はこんな感じ。あくまでも3D情報なので、カメラパラメーターや深度マップ、ポイントマップ、3Dポイントトラックで構成される点群で表示されています。



室内をぐるぐると撮影した動画からは、部屋の構造を示す3D情報が生成されました。



ズームすると、室内の構造もちゃんとポインティングされているのがわかります。



VGGTと、DUSt3RやFast3Rで、2枚の画像から抽出した3D情報を比較すると、建物の構造をより正確に再現できていることがわかります。



1枚の絵画から3D情報を生成した場合、DUSt3RとFast3Rは平面的になりましたが、VGGTで生成した3D情報からはかなり立体的な点群を構成できていることがわかります。



研究チームは「3Dコンピュータビジョン分野での更なる研究を促進し、コミュニティ全体に利益をもたらすこと」を目的とするため、VGGTのコードとモデルをGitHubで公開しています。

GitHub - facebookresearch/vggt: [CVPR 2025] VGGT: Visual Geometry Grounded Transformer

https://github.com/facebookresearch/vggt

また、VGTTのデモがHugging Faceのスペースで公開されており、実際に写真や動画をアップロードすることで3Dモデルを生成することが可能。デモ用の動画や写真も用意されているので、気になる人はぜひ確かめてみてください。

vggt - a Hugging Face Space by facebook

https://huggingface.co/spaces/facebook/vggt