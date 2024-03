Googleの研究チームが、写真1枚と音声を入力することで「音声に合わせて身ぶり手ぶりを交えて話すリアルな動画」を生成できるAIフレームワーク「VLOGGER」を発表しました。VLOGGERhttps://enriccorona.github.io/vlogger/Google researchers unveil 'VLOGGER', an AI that can bring still photos to life | VentureBeat

https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/Google researchers unite to create Vlogger | Cybernewshttps://cybernews.com/tech/google-researchers-create-vlogger/Google Researchで人体3Dと生成AIの研究をしているエンリック・コロナ氏が率いる研究チームは、拡散モデルと呼ばれる機械学習モデルの一種を活用してVLOGGERを開発しました。VLOGGERで動画を生成するために必要なのは、基となる画像データとそれに合わせる音声データです。最初のネットワークでは、音声データから取得された波形データを基にして、人物の視線・表情・ポーズからなる「body motion controls(ボディ・モーション・コントロール)」が作成されます。次のネットワークでは大規模な画像拡散モデルを拡張し、入力画像からボディ・モーション・コントロールに対応するフレームを生成するという仕組みです。VLOGGER開発の鍵となったのは、80万人分を超える多様なアイデンティティと合計2200時間を超える動画を含む「MENTOR」というデータセットです。この高精度で膨大なデータセットで訓練することにより、VLOGGERはさまざまな民族・年齢・服装・ポーズ・周辺環境を、バイアスを混ぜずに動画として生成できるようになったとのこと。流れる音声データに合わせて人物の口や表情、手などが動きます。研究チームが示したVLOGGERの動画生成例が以下。生成できる動画は短く、よく見るとぎこちない部分があります。しかし研究チームは、「VLOGGERを3つの異なるベンチマークで評価したところ、提案されたモデルが画質、同一性保持、時間的一貫性において他の最先端の手法を上回っていることが示されました」と主張しました。また、研究チームは、「先行研究とは対照的に、私たちの手法は各個人のトレーニングを必要とせず、顔検出やトリミングに頼らずに顔や唇だけではない完全な画像を生成し、コミュニケーションする人間を正しく合成するために重要な幅広いシナリオ(目に見える胴体や多様な被験者のアイデンティティ)を考慮しています」と述べています。テクノロジー系メディアのVentureBeatはVLOGGERについて、「俳優が新しいパフォーマンスをするために自らの詳細な3Dモデルを取得できる」「VRやゲーム用の写実的なアバター作成に利用できる」「魅力的で表現力豊かなバーチャルアシスタントの作成に利用できる」といった可能性があると主張。その一方で、ディープフェイクなどに悪用される危険性もあると指摘し、「このようなAI生成動画がよりリアルで作成も簡単になるほど、フェイクニュースやデジタルコンテンツの捏造(ねつぞう)を巡る課題が悪化する可能性があります」と警告しました。