1枚の写真と音声データから「人が話す映像」を作れる驚異の技術が登場

写真拡大



by mohamed_hassan

1枚の写真と音声データから「人が話す映像」を作り出す技術をSamsungとインペリアル・カレッジ・ロンドンのAI研究者たちが新たに開発しました。有名女優のポルノや偽のニュースを無尽蔵に作れるようになるとしてその危険性が叫ばれるディープフェイク技術がまた大きく進歩したとして話題となっています。

Realistic Speech-Driven Facial Animation with GANs

(PDFファイル)https://arxiv.org/pdf/1906.06337.pdf

New deepfake tech turns a single photo and audio file into a singing video portrait - The Verge

https://www.theverge.com/2019/6/20/18692671/deepfake-technology-singing-talking-video-portrait-from-a-single-image-imperial-college-samsung

ディープフェイクは機械学習で大量の訓練データを取り込んで作り出した映像を既存の映像と重ね合わせることで「偽」の映像を作り出すものであり、今回の研究でも機械学習技術が用いられました。1枚の写真から作り出したディープフェイクは100%リアルというわけではありませんが、その完成度は目を見張るものがあります。

例えばアルベルト・アインシュタインの写真と講義の音声を重ね合わせることで、実際には行われなかった講義の映像を作り出すことが可能。ムービーは以下から見ることができます。

Einstein reanimated - YouTube

また、「怪僧」「怪物」と形容されるグリゴリー・ラスプーチンにビヨンセの「Halo」を歌わせることも可能です。

Rasputin performing Halo - YouTube

現代の写真を利用したよりリアルなものがコレ。これは音声と1枚の写真を重ね合わせるだけでなく、「感情表現」を加えたものとなっています。

Facial Animation using Emotional Speech - YouTube

これらのムービーは「本物と見分けがつかない」といった完成度ではありません。しかし、ディープフェイク技術は恐るべき早さで発達しており、一般の人々が簡単にディープフェイクを作れるソフトウェアの登場も近いと見られています。