Googleが動画生成AI「Imagen Video」を発表

2022年10月6日 10時35分

「Stable Diffusion」などの画像生成AIが話題となる中、「Make A Video」や「Phenaki」といた動画生成AIも続々と登場しています。新たに、Googleが「テディベアが皿洗いする(a teddy bear washing dishes)」といった自然言語での指示から動画を生成する「Imagen Video」を発表しました。

Imagen Video

https://imagen.research.google/video/

Googleは2022年5月に、突飛なテキストから高精度な画像を自動生成できるAI「Imagen」を発表しています。

突飛なテキストからも高精度な画像を自動生成できるAIシステム「Imagen」 - GIGAZINE

そして、Googleは今回画像ではなく約5秒間の動画を生成できる「Imagen Video」を公開しました。一体どんな動画が生成されるのかは、以下から見ることが可能です。

Googleの動画生成AI「Imagen Video」のデモムービー - YouTube

この動画は「a teddy bear washing dishes」というテキストプロンプト、いわゆる「呪文」により生成されました。テディベアの手つきや皿が粘土のようにぐにゃりと曲がってしまうことがありますが、それがかえってクレイアニメのような印象を演出しています。また、流水の表現もポイントです。

Imagen Videoは、まず入力されたテキストプロンプトを自然言語処理AI「T5」で処理します。次に、拡散モデルで映像を生成する「Video Diffusion Models」がベースとなる24×48の解像度、毎秒3フレームで16フレームの映像を生成します。そして、これを「時間的超解像度(Temporal Super-Resolution)」と「空間的超解像(Spatial Super-Resolution)」というモデルでアップサンプリングして、最終的に1280×768の解像度と毎秒24フレームで128フレーム、つまり約5.3秒の映像を生成します。

Imagen Videoの公式サイトやSNSには、他にもImagen Videoで生成したさまざまな動画が掲載されています。

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280x768 24fps HD videos! #ImagenVideohttps://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I— Jonathan Ho (@hojonathanho) October 5, 2022

????Thrilled to share Imagen Video: our new text-to-video diffusion model generating 1280x768 24fps HD videos! #ImagenVideo

Website: https://t.co/0y4O6AZFtK https://t.co/t3fUsppHWN pic.twitter.com/uaGqch2NPt— Ruiqi Gao (@RuiqiGao) October 5, 2022

that is amazing!#imagenvideopic.twitter.com/N4n0HZ4vXj— Leonardo Gutiérrez ???????? (@leonardog27) October 5, 2022

Stoked to share our work on Imagen Video!
Diffusion models continue to unlock new possibilities for generative creativity: 3D with #DreamFusion last week, video with #ImagenVideo today ???? https://t.co/bG3YKNeqEg pic.twitter.com/W9epKkvMUf— Ben Poole (@poolio) October 5, 2022