Stability AIは11月21日(米国時間)、「Introducing Stable Video Diffusion - Stability AI」において、同社として、「Stable Diffusion」に基づく最初の動画生成モデル「Stable Video Diffusion」をリリースしたと報じた。なお、今回のリリースは研究プレビューを目的としたものであり、現実世界での利用や商業アプリケーションとしての利用を意図したものではないと説明している。

Introducing Stable Video Diffusion - Stability AI

発表されたモデルのソースソード、ウェイト、技術詳細などは次のページから取得することができる。

Stability-AI/generative-models: Generative Models by Stability AI

stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (PDF)

動画生成モデル「Stable Video Diffusion」はマルチビューデータセットにおける微調整で単一画像からのマルチビュー合成するなど、さまざまな下流タスクに適用することが可能とされている。同社は画像生成に関する生成AIモデルである「Stable Diffusion」を通じてエコシステムを構築しているが、Stable Video Diffusionについても同様のエコシステムを構築し、このモデルを基づいてさまざまな機能を拡張することを計画していると説明している。

Stable Video Diffusionは、1秒間に3フレームから30フレームのカスタマイズ可能なフレームレートで、14フレームおよび25フレームを生成可能な2つの画像から動画へのモデルとして公開されている。発表時点の評価では既存の類似モデルよりも性能が上回っていると報告されている。

公開されたStable Video Diffusionに関してはアクセスリストが公開されており、試したい場合には登録しておくことで、準備ができた段階でWeb体験を経験できるという。Stability AIはユーザーからのフィードバックを得て同モデルの洗練に取り組むとしている。