「Stable Diffusion」などの画像生成AIが話題となる中、「Make A Video」や「Phenaki」といた動画生成AIも続々と登場しています。新たに、Googleが「テディベアが皿洗いする(a teddy bear washing dishes)」といった自然言語での指示から動画を生成する「Imagen Video」を発表しました。

Imagen Video

https://imagen.research.google/video/

Googleは2022年5月に、突飛なテキストから高精度な画像を自動生成できるAI「Imagen」を発表しています。

突飛なテキストからも高精度な画像を自動生成できるAIシステム「Imagen」 - GIGAZINE



そして、Googleは今回画像ではなく約5秒間の動画を生成できる「Imagen Video」を公開しました。一体どんな動画が生成されるのかは、以下から見ることが可能です。

Googleの動画生成AI「Imagen Video」のデモムービー - YouTube

この動画は「a teddy bear washing dishes」というテキストプロンプト、いわゆる「呪文」により生成されました。テディベアの手つきや皿が粘土のようにぐにゃりと曲がってしまうことがありますが、それがかえってクレイアニメのような印象を演出しています。また、流水の表現もポイントです。



Imagen Videoは、まず入力されたテキストプロンプトを自然言語処理AI「T5」で処理します。次に、拡散モデルで映像を生成する「Video Diffusion Models」がベースとなる24×48の解像度、毎秒3フレームで16フレームの映像を生成します。そして、これを「時間的超解像度(Temporal Super-Resolution)」と「空間的超解像(Spatial Super-Resolution)」というモデルでアップサンプリングして、最終的に1280×768の解像度と毎秒24フレームで128フレーム、つまり約5.3秒の映像を生成します。



Imagen Videoの公式サイトやSNSには、他にもImagen Videoで生成したさまざまな動画が掲載されています。