2021年2月2日、Googleでソフトウェアエンジニアとして働くプラムック・カンガーンさんが1枚のキャラクター画像から多彩な表情を作り上げることができるシステムを開発したと発表しました。このシステムは目や口、虹彩などを自由に動かすことができ、さらに自分の動きをリアルタイムで表情に反映させることも可能とのことです。

Talking Head Anime from a Single Image 2: More Expressive (Full Version)

https://pkhungurn.github.io/talking-head-anime-2/full.html

キャラクター画像一枚でより表情豊かなアニメーションを生成するシステムを作ってみた

https://pkhungurn.github.io/talking-head-anime-2/index-ja.html

どういう感じでVTuberになれるのか、そのシステムの概要が以下のムービーで解説されています。

一枚の画像で表情豊かなVTuberになれるシステムを作ってみた - ニコニコ動画



カンガーンさんは簡単にVtuberになれるようにすることを目標に、2019年にこのシステムの作成を開始しました。入力画像として1枚の画像を読み込ませると、さまざまな表情に変化させた画像を出力できるというシステムですが、最初はキャラクターの顔を回転させることと、目と口を開閉させることしかできなかったとのこと。この時はポーズを指定するためのポーズベクトルが6種類しかなく、キャラクターは6種類の動きしかとることができませんでした。



キャラクターの表情を増やすべくカンガーンさんはアノテーションとプログラミングを繰り返し、9カ月かかった末にポーズベクトルを42種類まで増やすことに成功しました。ポーズベクトルには頭の回転3種類と……



虹彩の動き4種類



眉毛の動き12種類



目の動き12種類



口の動き11種類です。



これにより、キャラクターは42種類のポーズベクトルを動かして何通りもの細かい表情をとることが可能になりました。



このシステムは男性のキャラクターにも女性のキャラクターにも対応しており、髪や眼鏡越しに見える目も問題なく変化させることが可能とのこと。また前回のシステムでは入力画像が口を閉じているものだと出力画像の口を開くことができませんでしたが、今回はある程度適切な形で開くようになっているとのことです。

また、このシステムはiFacialMocapというiOSアプリを用いてiPhoneで自分の姿を撮影し、表情をリアルタイムでキャラクターに反映させることもできるとのこと。この機能を使用している様子は以下のムービーで確認できます。

Yet Another Tool to Transfer Human Facial Movement to Anime Characters in Real Time - YouTube

さらに録画した映像を使用し、あらゆるキャラクターに表情を反映させることも可能です。VTuberに長ゼリフで有名な外郎売を演じさせたり……

外郎売を唱えて、その動きをVTuberの画像に移してみた。 - YouTube

歌を歌わせたりといったことが可能になっています。

「ばかみたい」を口パクして、VTuberの画像に歌わせてみた。 - YouTube

カンガーンさんいわく、このシステムには「3Dモデルができる動きしか画像に反映させられない」「入力画像に制限がある」など、まだまだ改善すべき点があるとのこと。これらの問題は次回のプロジェクトで解決すると語っています。