テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ

2023年11月22日 10時44分

画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。

Stable Video Diffusion のご紹介 - Stability AI Japan

https://ja.stability.ai/blog/stable-video-diffusion

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets - Stability AI

https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusionは研究プレビューとして公開されており、ソースコードがGitHubリポジトリで公開されています。

GitHub - Stability-AI/generative-models: Generative Models by Stability AI

https://github.com/Stability-AI/generative-models

また、ローカルでモデルを実行するために必要なウェイトはHuggingFaceで確認できます。

stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

Stable Video Diffusionは、14フレームおよび25フレームを生成できる2種類のImage to Videoモデルとしてリリースされており、3fps～30fpsでカスタマイズ可能なフレームレートで動画を生成が可能です。

「Ice dragon in the mountains(山にいる氷の龍)」と入力するとその通りのアニメーションが生成されます。

「Astronaut walking on the moon(月を歩く宇宙飛行士)」

「Two blue jays on the top of building(建物のてっぺんに留まる2羽の青いカケス)」

Stability AIは、runway ResearchのGEN-2やpika.artのPikaLabsとユーザーによる映像品質の評価(縦軸)を比べた結果として、以下の棒グラフを公開しています。14フレーム生成できるStable Video Diffusion(紫)の場合はこんな感じ。

25フレーム生成できるStable Video Diffusion XT(紫)の場合が以下。

Stability AIは「Stable Video Diffusionを、私たちの多様なモデルに加えられたことを嬉しく思います。画像、言語、音声、3D、コードなどのモダリティにまたがるStability AI のポートフォリオは、人間の想像力を最大化させるという Stability AI のミッションの証です」とコメントしています。