画像や文章を生成するAIに続いて、動画生成AIも急速に進歩しつつありますが、これまでのAIが生成した動画は無音か人間が音を後付けしたものばかりでした。Google DeepMindが2024年6月17日に、映像の雰囲気や動きに合わせて音楽や音を生成する「video-to-audio(V2A)」を発表しました。Generating audio for video - Google DeepMind

https://deepmind.google/discover/blog/generating-audio-for-video/Google DeepMindが今回発表したV2Aシステムは、動画生成AI「Veo」と組み合わせてドラマチックなBGMやリアルなSE、キャラクターのセリフなどを生成できる技術です。例えば、以下のムービーは「Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete(映画、スリラー、ホラー映画、音楽、緊張感、アンビエンス、コンクリートの足音)」というプロンプトで音楽や音が付けられています。V2A Horror - YouTube人物が手前から奥に向かって歩くシーンでは、不安をかき立てるようなBGMと、ザクザクという足音が聞こえます。場面が切り替わり、人影が現れたシーンでは「ズーン」という重々しい音も鳴りました。他にもさまざまなサンプルが掲載されています。以下のムービーの音声プロンプトは「Cute baby dinosaur chirps, jungle ambience, egg cracking(かわいい赤ちゃん恐竜の鳴き声、ジャングルの環境音、卵の割れる音)」です。V2A Dinosaur - YouTube「jellyfish pulsating under water, marine life, ocean(水中を泳ぐクラゲ、海洋生物、海」V2A Jellyfish - YouTube「A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd(フラッシュと歓声に包まれたコンサートのステージに立つドラマー)」V2A Drums - YouTube「cars skidding, car engine throttling, angelic electronic music(車のスリップ、車のエンジンのスロットル、天使のような電子音楽)」V2A Cars - YouTube「a slow mellow harmonica plays as the sun goes down on the prairie(大草原の日が沈む中、ゆったりとしたハーモニカが鳴り響く)」V2A Cowboy - YouTube「Wolf howling at the moon(月にほえるオオカミ)」V2A Wolf - YouTubeV2Aシステムは、まず入力された映像をエンコードし、それを元に拡散モデルがランダムなノイズから繰り返し音を生成します。そして映像とプロンプトに一致したリアルな音声が生成されたら、デコードして音声データと映像を合成します。V2Aシステムは映像を理解することができるので、テキストプロンプトの入力はオプションとのこと。例えば、以下の動画のギターの音はプロンプト入力なしで合成されたそうです。V2A Guitar - YouTubeまだ不自然になることが多いものの、ある程度のリップシンクも可能です。例えば、以下の動画でキャラクターがしゃべっているセリフは、「Transcript: “this turkey looks amazing, I’m so hungry(台本:『この七面鳥おいしそう。おなかすいたな』)」というスクリプトから合成されたもの。V2A Claymation family - YouTube音声をつけられるのはVeoが生成した動画に限らないため、Google DeepMindは「アーカイブ資料や無声映画など、既存のさまざまな映像のサウンドを生成することもできるため、より幅広い創造的機会が生まれるでしょう」と述べました。