Stability AIがマルチアングル映像を生成するためのAIモデル「Stable Video 4D」を発表しました。

Stable Video 4D : ダイナミックなマルチアングル映像生成のための最新AIモデル - Stability AI Japan

https://ja.stability.ai/blog/stable-video-4d

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

https://sv4d.github.io/

Stable Video 4DはStability AI初のビデオツービデオ生成モデルで、動画から異なるアングルやビューの動画を生成することができるというもの。ユーザーは1本の動画をアップロードするだけで、8つの異なるアングルの動画を出力することができます。ユーザーは生成される動画のカメラアングルを指定可能で、特定のクリエイティブなニーズに合わせて出力を調整することもできます。





Stable Video 4Dは画像から動画を出力することができるAIモデルのStable Video DiffusionとStable Video 3Dをベースに開発されたAIモデルで、入力した動画に映るオブジェクトの複数の新規ビュー動画(4D画像マトリックス)を生成することで、異なるアングルの動画を生成します。

ユーザーは1本の動画をアップロードして、希望する3Dカメラのポーズを指定するだけでOK。すると、Stable Video 4Dは指定されたカメラの視点に従って8つの新しい視点動画を生成し、被写体の包括的な多角的視点を提供してくれます。生成された動画について、Stability AIは「動画内の被写体のダイナミックな3D表現を効率的に最適化するために使用することができます」と説明しました。

Stable Video 4Dは8つの視点にわたって5フレームの動画を約40秒で生成することができ、全体の4D最適化には約20〜25分かかるそうです。Stability AIはStable Video 4Dの使用用途について、「ゲーム開発や動画編集、VRコンテンツの生成などの分野で将来的に応用できると想定しています。これらの分野の専門家は、複数の視点からオブジェクトを視覚化する能力から大きな恩恵を受け、製品のリアリティと没入感を高めることができます」と記しました。

なお、Stable Video 4DのトレーニングデータセットにはOpen Data Commons Attribution Licenseで配布されているObjaverseが利用されています。

Stable Video 4DはHugging Faceから利用可能です。ただし、年間収益が100万ドル(約1億5000万円)を超える個人あるいは組織の場合、Stable Video 4Dを商用利用する前にStability AIから直接エンタープライズ商用ライセンスを取得する必要があります。

stabilityai/sv4d · Hugging Face

https://huggingface.co/stabilityai/sv4d