GAN(敵対的生成ネットワーク)と呼ばれるアルゴリズムを使用して人物の写真からアニメキャラクターを作成する方法がTokyo Deep Learning Workshop 2018で解説されており、その動画がYouTubeにアップロードされています。

25.Yanghua Jin: Creating Anime Characters with GAN - YouTube

GANは2つのニューラルネットワークを組み合わせ、競い合わせることで特定のデータを生成する精度を上げる仕組みです。GANを発案したイアン・グッドフェローさんはGANを偽札を作ろうとする偽造者と偽札を見分けようとする警察の攻防に例えて説明しています。つまり、片方のニューラルネットワークが本物そっくりな偽札データを作成して「警察」をだまそうとし、「警察」側のニューラルネットワークは入力されたデータの中から偽札データを見つけだそうとします。

この仕組みを利用することで本物そっくりなデータを生成する「偽造者」ニューラルネットワークが手に入ります。この「偽造者」ニューラルネットワークが生成した本物そっくりのデータを利用することで、ニューラルネットワークをトレーニングするのに必要なもともとの教師データの数を減らすことができます。

このGANが使用されている事例としては、人工知能(AI)にキャラクターを自動生成させる「MakeGirls.moe」や、線画のイラストに自動で着色する「PaintsChainer」などが存在しており、各サービスがどのようなものになっているのかは以下の記事を読むとわかりやすいです。

美少女キャラクターを人工知能が自動生成してくれる「MakeGirls.moe」 - GIGAZINE



イラストの線画の顔・服装などをAIが認識して自動着色する新機能を「pixiv Sketch」で使ってみた - GIGAZINE



Tokyo Deep Learning Workshop 2018に登壇したYanghua Jinさんは、「写真からアニメキャラクターを作成できないものか」と考えたそうです。Googleで「anime vs reality」と検索すると出てくる以下のような画像を教師データとして利用し、機械学習で写真をアニメキャラクターに変換しようとしてみたとのこと。下の画像は左が人物写真で、右は人物写真をもとにイラストレーターが人物を二次元化したイラストですが、この左の写真から右の画像を自動で生成することが狙いです。



そのための技術の1つがCycleGANと呼ばれるもので、これは2つのGANを組み合わせたもの。下は(PDF)CycleGANの論文から抜き出した画像ですが、これを使用して簡単に説明します。



例えばXを英語、Yを日本語だとすると、Gは英語を日本語に翻訳するニューラルネットワークです。Gを通して翻訳された日本語をG(X)と表記すると、DYはYとG(X)、つまりネイティブが書いた日本語か英語から自動翻訳された日本語かを判別するニューラルネットワークです。DYからのフィードバックをもとにGを改善することで、翻訳された日本語G(X)の品質はYに近づいていきます。これがGANの仕組みです。

CycleGANでは英語→日本語に加えて日本語→英語という逆方向のニューラルネットワークも用意して対照な形を作ります。そして英語→日本語→英語、日本語→英語→日本語というように逆翻訳をした時に出力が同じになるように調整していきます。こうすることで、XとYを自在に行き来させることができるニューラルネットワークを作成することができます。

ここでは翻訳を例に挙げましたが、CycleGANは実際には画像処理において活躍している技術で、画家の作風を変えたり、シマウマを馬に変えたり、夏の風景を冬の風景と入れ替えたりする研究結果が公表されています。



また、下のムービーはCycleGANの成果物の一つです。ムービーに登場する馬をシマウマに変換できていることがわかります。

Turning a horse video into a zebra video (by CycleGAN) - YouTube

しかし、CycleGANは「テクスチャの張り替え」を非常にうまく行える一方で、「元の画像から形が変化する変換」を行うのは苦手という特徴を持ちます。つまり、顔写真からアニメ画像を作成する際に目を大きくしたり口や鼻を小さくしたりという変換を行うにはさらなる工夫が必要というわけ。



Yanghua JinさんはニューラルネットワークのモデルにStackingという手法を導入することで上述の変換をうまく行えるネットワークの作成に成功したとのこと。



下の画像はYanghua Jinさんのニューラルネットワークで変換されたものです。左が入力に使用した写真で右が生成されたアニメキャラクターです。表情や顔の角度、髪型など各個人の特徴を捉えながらことなる見た目のキャラクターが高解像度で生成されていることがわかります。





バーチャルYouTuberが3000人を突破したり、WWDC 2018で発表されたiOS 12でアニ文字を使用してFaceTimeできるようになったりというように、実写の人間をアニメキャラクター化する需要が高まってきている昨今の状況において、Yanghua Jinさんの技術は業界図を塗り替えるような可能性を感じさせるものとなっていました。