スタンフォード大学やGoogleの研究チームが、テキストから写実的な動画を生成する拡散モデルである「W.A.L.T」を発表しました。実際に「W.A.L.T」を使用して生成した動画も多数公開されています。

W.A.L.T.pdf

https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf



Photorealistic Video Generation with Diffusion Models

https://walt-video-diffusion.github.io/

「W.A.L.T」は、Googleなどが発表した深層学習モデルのTransformerをベースにした動画生成AIです。研究チームのアグリム・グプタ氏は、W.A.L.Tの仕組みについてX(旧Twitter)へのポストで触れています。



W.A.L.Tでは、まず因果3Dエンコーダーを使用して共有潜在空間内の画像を動画を圧縮します。



次に記憶とトレーニングの効率を高めるため、潜在空間での空間的・時間的共同生成モデリング用に調整されたウィンドウ・アテンション・アーキテクチャを使用するとのこと。



これにより、自然言語のプロンプトから写実的かつ時間的な一貫性のあるモーションを生成できるようになっています。



実際に研究チームは、W.A.L.Tを使用して生成した動画の例を多数公開しています。以下はその一例です。

テキストから動画を生成するAIモデル「W.A.L.T」で作られた「ピラミッドの前でスローで踊る黒いジャケットを着たアライグマ」の動画 - YouTube

テキストから動画を生成するAIモデル「W.A.L.T」で作られた「水に囲まれた美しい城の空撮」の動画 - YouTube

テキストから動画を生成するAIモデル「W.A.L.T」で作られた「夕暮れ時にVRゴーグルを装着した犬」の動画 - YouTube

テキストから動画を生成するAIモデル「W.A.L.T」で作られた「馬に乗る宇宙飛行士」の動画 - YouTube

テキストから動画を生成するAIモデル「W.A.L.T」で作られた「誕生日の帽子をかぶってビーチを歩く象」の動画 - YouTube

研究チームが公開しているその他の動画は、以下のウェブページで視聴することが可能です。

Photorealistic Video Generation with Diffusion Models

https://walt-video-diffusion.github.io/samples.html