音声付きの動画を生成できる「Veo 3」に、画像から動画への変換（Image-to-Video）機能が搭載されました。

また、セリフも指定して動画に反映できるようになり、幅広く動画生成を行えるようになりました。

この記事では、Veo3を使って画像から動画へ変換する方法やセリフを指定して動画を生成した様子を解説します。

画像から8秒の音声付き動画を生成

Veo 3の特徴は音声付きの動画を生成できることです。以下のような音声が自動で生成されます。

街中の騒音、公園の鳥のさえずり、風の音などの環境音キャラクターの動きや物音に連動した自然な効果音口の動きや身振りを含む自然な会話シーンシーンに合わせたBGM

上記に加えて特に注目すべきは、プロンプトでセリフを指定することで口元の動きから身振りまで一貫性のある自然な表現が得られるようになったことです。

また、画像から動画を生成するImage-to-Video（i2v）機能も利用可能になりました。この機能では、既存の静止画に動きを与え、音声とともに8秒間のショート動画に変換できます。

利用できるプランは？

Veo 3は、Google AI Proプラン（月額2,900円・税込）およびGoogle AI Ultraプラン（月額36,400円・税込）の加入者が利用できます。

2025年7月時点では、Proプランは1日最大3本のVeo 3 Fast版動画を生成できます。Ultraプランの上限は非公開ですが、Proプランよりも高品質の動画をより多く生成できるようです。

Veo 3は、使用手順は以下の通りです。

Geminiのチャット欄下部の「動画」ボタンをタップ。プロンプトを入力。日本語でもOK。画像がある場合はアップロード。3〜5分程度で8秒間の動画が生成され、チャット上に表示される。

日本語への対応状況を検証！セリフやプロンプトの精度は？

実際にVeo 3を使って作成した動画のうち、3パターンの動画について使用感と課題を検証してみました。プロンプトや元画像はChatGPTで生成しました。

旅行アプリのプロモーション動画

旅行アプリの紹介動画をイメージしてみました。プレゼン資料の冒頭で「カフェで旅行者が友人にアプリを紹介しているシーン」を挿入する場面を想定しています。

プロンプトTwo young travelers sitting at an outdoor cafe in Lisbon. One shows her phone screen to the other. They smile and talk in a friendly tone. Background: colorful European street, soft sunlight. Have them say: A: “Hey, check this out. This app recommends hidden spots based on your mood.” B: “That’s amazing. I’m definitely using it on my next trip!”

画像から動画への変換機能の精度は高く、元の画像の雰囲気を保ちながら自然な動きが追加されました。会話の英語もプロンプト通りです。

現代ビジネスマンの日常を描いた動画

都心部を歩くビジネスマンが日々の情報に追われている様子を表現した動画も作成しました。この動画では日本語のナレーションを追加してみました。

プロンプト A busy business district in Tokyo, similar to Marunouchi or Shimbashi. Dozens of people in suits are walking quickly through the streets, most of them holding smartphones. Some are checking messages, others are replying while walking. The scene begins with a close-up of a smartphone screen, then pulls back to reveal the crowd, followed by a wide aerial shot of the entire street. People appear stressed, glancing constantly at their phones. Notifications begin to visually pop out of the smartphone screens in an animated style, floating in the air like information overload. A calm narrator's voice speaks in Japanese:「私たちは、情報に追われている――」("We are being chased by information..."). The tone is reflective and quiet, contrasting with the chaotic urban movement. The scene captures the sense of digital overwhelm in a modern city.

動画はほぼイメージ通りでしたが、日本語のナレーターの読み上げは不正確でした。しかも字幕風の謎の文字が表示されています。この動画の他にも日本語のセリフを試してみましたが、プロンプト通りになることもあれば、なぜか英語のセリフになってしまうこともありました。

ライフハッカー・ジャパンのイメージ動画

プロンプトが日本語でも動画にうまく反映できるかどうかを試してみました。今度はライフハッカーをイメージしたショート動画を作ってみました。

プロンプト 朝のオフィス。ノートパソコンに向かって集中して作業する会社員。静かなBGMとともに、ToDoリストに “Done” や “Completed” のチェックマークが次々に表示されていく。手元のマグカップから湯気が立ちのぼる。 画面が切り替わり、青空の下でバスケットボールを楽しむ姿、カフェで読書するシーン、友人たちと笑い合うシーンなどがテンポよく映し出される。 最後に黒背景に白字で、ナレーションではなくテキストで表示される： **Do everything better.** ロゴやプレゼンタイトルがその後自然にフェードイン。

イメージに近い動画が生成されましたが、トレーラー風の仕上がりになりプロンプト通りに文字が表示されませんでした。そこでプロンプトの最後の部分を以下のように修正し、もう一度試しました。

プロンプト最後に**Do everything better.**のセリフが聞こえる。

セリフは冒頭に入ってしまったものの、違和感のない動画になりました。

以上を踏まえて、Veo3の動画生成についてわかったことは以下の点です。

セリフについては英語の方が正確に反映できる画像から動画への変換は高精度英語でも動画内に表示する文字は正確に反映されないことがある

音声付き動画生成や画像から動画を生成できる機能により、短時間でクオリティの高いコンテンツが手軽に作れる時代が到来しています。

スライドに短時間のイメージ動画を挿入したり、SNS向けのショートコンテンツ作成したりするときにVeo3が活躍するでしょう。これからも動画生成AIの動向から目が離せません。

