NVIDIAがテキストから高解像度の映像を生成するAIモデル「VideoLDM」を発表
![](https://image.news.livedoor.com/newsimage/stf/2/f/2f65f_88_4cdc33ee290e288c3b98d002014480ec.jpg)
NVIDIAが、アメリカのコーネル大学と共同で開発したAIモデル「Video Latent Diffusion Model(VideoLDM)」を発表しました。VideoLDMは、テキストで入力した説明に基づき、最大2048×1280ピクセルの解像度、24fpsの動画を最長4.7秒生成することができます。
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
![](https://image.news.livedoor.com/newsimage/stf/a/a/aa896_88_227a7095f3f982878159735afd627d24.png)
NVIDIA Introduces AI That Generates High-resolution Videos Based On Text Descriptions - Tech News Space
https://technewsspace.com/nvidia-introduces-ai-that-generates-high-resolution-videos-based-on-text-descriptions/
![](https://image.news.livedoor.com/newsimage/stf/9/b/9babf_88_ab9f91925d172d443748d5f4978ebf20.png)
NVIDIAが発表したVideoLDMには、最大41億のパラーメーターがありますが、そのうちトレーニングに使用した動画は27億です。これは、AI開発の基準からするとかなり控えめな水準ですが、NVIDIAは効率的な潜在拡散モデル(Latent Diffusion Model:LDM)により高解像度で、時間的に一貫性のある、多様な動画を作成できるモデルの開発に成功しました。
VideoLDMが生成した動画の例が以下。「A teddy bear is playing the electric guitar, high definition, 4k(テディベアがエレキギターを弾いている。高画質。4K)」というプロンプトにより、クレイアニメのような趣のあるテディベアのアニメーションを高画質で生成することができました。
VideoLDMの特徴は、大きく分けて2つあります。1つ目は、パーソナライズされた映像の生成です。VideoLDMは、特定の画像を事後学習させる「DreamBooth」という手法で調整することで、パーソナライズされた「テキストから動画の合成(text-to-video)」を行うことができます。
例えば、以下のような猫の画像を使用したとします。
![](https://image.news.livedoor.com/newsimage/stf/3/7/3717f_88_0be2817f14bc2e9097f602569a26a375.jpg)
その後、草むらで遊ぶ猫の動画を生成するよう指示すると、以下のように元の画像そっくりの猫が登場する動画が生成されます。
もう1つが、時間内畳み込み合成(Convolutional-in-Time Synthesis)というもの。これにより、画質は若干低下するものの、24fpsで174フレーム、つまり7.3秒の長さの映像を作ることができます。
さらに、運転映像であれば1024×512ピクセルの解像度で5分間もの長さの映像を生成することも可能です。以下の動画を再生すると、街中や郊外、日中や深夜のドライブなどさまざまなシチュエーションの運転映像が生成されていることが分かります。
NVIDIAの動画生成AI「VideoLDM」で生成したドライビング映像 - YouTube
VideoLDMは、2023年6月18日からカナダのバンクーバーで開催される技術カンファレンス「Machine Vision and Pattern Recognition Conference」で発表される予定です。あくまで研究プロジェクトの段階であるため、これがNVIDIAのサービスや製品にどのように展開されるのかは記事作成時点では不明となっています。