Googleが動画生成AI「Veo 3」を発表、4K出力可能で音声も同時に生成できる

Googleが動画生成モデルの「Veo 3」を発表しました。最大4Kまでの解像度の動画を作成できる過去モデル「Veo 2」の品質を向上させただけでなく、Googleの動画生成AIとして初めて「音声付き」の動画生成が実現しています。
Veo - Google DeepMind
https://deepmind.google/models/veo/
Imagen 4, Veo 3: Googleの最新のメディア生成モデル
Veo 3で生成した動画が以下。波の音やセリフも動画と同時に生成されたものです。
Say goodbye to the silent era of video generation: Introducing Veo 3 - with native audio generation. 🗣️
Quality is up from Veo 2, and now you can add dialogue between characters, sound effects and background noise.
Veo 3 is available now in the @GeminiApp for Google AI Ultra… pic.twitter.com/7rcXeBslyU— Google (@Google) May 20, 2025
人間の声、街中の交通音、公園の鳥のさえずり、アニメーション風のキャラクター同士の対話なども生成できます。これまでほとんどの動画生成モデルが無音の動画しか生成できなかったことから、GoogleはVeo 3の発表に際し「ビデオ生成の無音時代に別れを告げましょう」と述べて性能をアピールしました。
Animate your story in your style with Veo 3. 🖌️
Here are some of our favorite videos. Sound on. 🔈 https://t.co/5wUMEaqNdD 🧵 pic.twitter.com/vl1R4nZJT4— Google DeepMind (@GoogleDeepMind) May 20, 2025
紙がこすれる音、ダイナミックな効果音など、さまざまな音を含む動画を生成できます。
Video, meet audio. 🎥🤝🔊
With Veo 3, our new state-of-the-art generative video model, you can add soundtracks to clips you make.
Create talking characters, include sound effects, and more while developing videos in a range of cinematic styles. 🧵 pic.twitter.com/5Hfpetfg8b— Google DeepMind (@GoogleDeepMind) May 20, 2025
Veo 3はテキストや画像によるプロンプトの入力を受け付けており、現実世界の物理法則を反映し、正確なリップシンク(音声に口の動きを合わせるもの)を実現するとのこと。理解力にも優れ、短いストーリーを伝えるだけでその内容を鮮明に表現した映像を生成できるそうです。
Veo 3は、2025年5月21日からスタートしたGoogleの最高峰のAIプラン「Google AI Ultra」の加入者向けに提供されます。Google AI Ultraは、スタート時点でアメリカ限定で提供されています。
なお、Veo 3の開発を進める中で、クリエイターや映画制作者との連携から得られた知見に基づき、Veo 2モデルにも新機能を追加したとのことです。新機能には、画像を利用した生成の調整や、回転やズームなどカメラワークを設定するもの、フレームを拡張して動画をポートレートからランドスケープに変更するもの、動画内のオブジェクトを追加したり削除したりするものなどが含まれています。
シーン、キャラクター、オブジェクトの画像を別々に提供したとしても、それらを統合して1つの動画を生成することができます。

スタイルを定義づける画像(以下左上)を提供すると、同じようなビジュアルの動画を生成可能。

キャラクターの画像(以下左上)を提供すると、キャラクターの外観を維持したまま動画に登場させることもできます。
