機械学習は多くの分野で活用されており、「画像内のオブジェクトを正しく認識できているかどうか」や「ある言語から別の言語に翻訳する際に適切に行えているか」など、「これは正しい」「これは間違い」と答えがはっきり存在するタスクにおいて特に役立ちます。一方で、客観的な評価が得られにくい場合、例えば「写真が美しいかどうか」など主観的な概念に基づくものには活用が難しいと考えられてきました。しかし、Googleはディープラーニングを用いて芸術的なコンテンツを作成するための実験的なシステムを構築することに成功しています。

Research Blog: Using Deep Learning to Create Professional-Level Photographs

https://research.googleblog.com/2017/07/using-deep-learning-to-create.html

Googleの言う「芸術的なコンテンツを作成するシステム」とは、プロの写真家レベルの写真を自動生成することができるシステムのこと。このシステムの根幹部分は「プロの写真家のワークフローを模倣すること」という発想から生まれており、Googleストリートビューの風景写真から最良の構図を探し出し、さまざまな処理を加えることで審美的に美しい画像を作成することができます。プロの写真家レベルの写真を自動生成できるシステムを、Googleは「バーチャルフォトグラファー」と呼んでいます。

Googleのバーチャルフォトグラファーは、アルプス・バンフ・ジャスパー国立公園・イエローストーン国立公園などの約4万枚にもおよぶパノラマ写真を元に画像を作成。バーチャルフォトグラファーが作成した画像をプロの写真家に見てもらったところ、「印象深く、プロの品質に近い」というお墨付きをもらうことにも成功しています。

「美学」はデータセットを用いることでモデル化することができるそうですが、写真をより良いものにするには普通にデータセットを使用するだけでは、美観の一部が損なわれる可能性があるとのこと。そこで、学習内容を管理し、美学に関するさまざまな側面を正しくシステムに学習させる必要があります。そのため、Googleはプロ品質の写真集などを用いて美学を複数の要素に自動的に分解し、それぞれの側面に合致した写真を用いて要素ごとに個別に学習を進めたそうです。これによりバーチャルフォトグラファーは、写真の構図・彩度・HDRレベルなどの要素に分けて最適(つまりは美しい)な写真を判断可能になったとのこと。

以下の写真はバーチャルフォトグラファーの一連の処理を段階ごとに示したもので、(a)がシステムが見つけたGoogleストリートビューの風景写真、(b)は(a)を適切な構図にトリミングしたもの、(c)は(b)の彩度とHDR強度を調節したもので、(d)は(c)にマスクを追加したものとなっています。つまり、バーチャルフォトグラファーはシステムが学習した「『美学』の持つ複数の側面」を要素ごとに処理しているというわけ。



実際にバーチャルフォトグラファーがどのような写真を生成できるようになったのかは以下の通り。各画像の上がバーチャルフォトグラファーが生成した画像で、下が元となったGoogleストリートビューの写真。

カナダのジャスパー国立公園



スイスのインターラーケン



イタリアのオロビエ・ベルガマスケ公園



再びカナダのジャスパー国立公園



Googleはバーチャルフォトグラファーのアルゴリズムがどれくらい優れたものなのかを判断すべく、「チューリング・テスト」のような実験を設計しました。実験ではバーチャルフォトグラファーが作成した写真と他の写真をまぜこぜにしてプロの写真家に見せ、それぞれの写真をスコアで評価してもらいます。評価は4段階で、「1」が構図や照明を考慮していないオートで撮影された写真、「2」が一般的に言う良い写真(ただし特筆すべき点はなし)、「3」がセミプロレベルの写真で「4」がプロレベルの写真。

以下のグラフはバーチャルフォトグラファーが生成した画像がどのくらいのスコアになるか予測し、プロの写真家によるスコアと比べたもの。各線の予測スコアは青色が1.5〜2.5、緑色が2.5〜2.7、赤色が2.7〜2.9、紫色が2.9〜3.1。最も予測スコアが高かった画像、つまりは最も出来栄えの良かった画像はプロの写真家の40%以上がセミプロもしくはプロレベルの写真と評価しています。



バーチャルフォトグラファーは実験的なプロジェクトとして開発されたシステムですが、「いつかこのテクニックが現実世界でより良い写真を撮るのに役立つことがあるかもしれない」とGoogleの研究者はコメントしています。