画像提供:マイナビニュース

写真拡大

●1年かかった学習がわずか1日で?

AIやMachine Learning(機械学習)はうちの会社に関係ない……なんて時代はもう過去のものになるかもしれない。米Googleが1月17日に公開した「Cloud AutoML Vision」は、データさえあれば素人でも機械学習の力を多分に活用できるサービスだ。

○機械学習をさまざまなサービスに適用

これまでもGoogleは、一般ユーザー向けに「Googleフォト」や「Google翻訳」「Google Home」で機械学習、AIのパワーを提供してきた。例えば、Googleフォトに写真をアップロードすれば、クラウドが写真上の風景や人を自動で認識してさまざまなキーワード分類を行う。

「山」や「海」といった風景はもちろん、「犬」や「猫」といった動物も認識し、キーワードで検索しただけで関連度の高い写真をピックアップできる。特に性能の高さを示しているのが人間の顔の抽出機能だ。同一人物の写真が複数枚ある場合、服装やメガネの有無があっても個々人の顔を認識してグループ化してくれる。

Googleフォトは、単に同じ顔をグループ化するのではなく、例えば成長による顔の変化なども捉える。写真は筆者の犬のグループ化例

筆者もGoogleフォトを利用しているが、100人を遥かに超える顔がグループ化して表示されている。その精度は驚くべきもので、有人・知人はもちろん、社内の人間、そしてたまたま写り込んだ人までもがグループ化されている。100%同じ人を抽出できるとまではいかず、顔の雰囲気が近い人を誤ってグループ化しているケースも少なくないが、実用レベルという意味では十分な精度という印象だ。

こうした技術を企業が自社製品・サービスへ応用するにはこれまで、TensorFlowなどの機械学習のライブラリを活用してカスタマイズしたアルゴリズムを用いるか、Googleフォトと同等レベルの学習済みモデルを利用できるGoogle CloudのAPI「Cloud Vision API」を利用するほかなかった。なお、競合では米MicrosoftがAzureで「Computer Vision API」、米AWSが「Amazon Rekognition」が同様の機能を提供している。

○AIファーストのGoogle

では、なぜTensorFlowやCloud Vision APIではダメなのか。

TensorFlowはGoogleがオープン化したライブラリで、前述のGoogleフォトやGoogle翻訳、Google Homeにおける音声認識などさまざまな製品の根幹をなすものとして作られた。つまり、これを用いれば誰もがGoogleレベルのテクノロジーを使える……というわけではない。

これはあくまでライブラリであって、あくまで計算を走らせるためのベースであり、ニューラルネットワークや最適化するための数学知識を持たざるものにとってはまったく"使えない"もの。言うなれば「レクサスの主要パーツはここにすべて揃ってるから、あなたは高級車に乗れる」と言ってるようなものであり、そこにあるのは無用の長物と化したパーツ群だけだ。

一方のCloud Vision APIは、自社製品・サービスに機械学習の力を確かに活用できる。ただしそれは写真を「山です」「海です」という判定を出すものに過ぎず、例えば「車の車種を特定したい」「コートのブランドを特定したい」といった専門性の高いニーズに応えられない。

そうした需要を満たすにはTensorFlowが必要だが、やはり、ディープラーニングの専門家という"エンジニア"が必要になる。そこでこうした課題を解決すべく登場したのがCloud AutoML Visionだ。このサービスでは、ユーザーが求めるサービスレベルに合わせた学習が可能になるうえ、高度なエンジニアも必要としない。

Google Cloud マシンラーニング スペシャリスト 大薮 勇輝氏は「GoogleとしてAIファーストを掲げる中で、さまざまな製品でAIを利用する一方、一般企業では使えていない状況にあった。AIファーストと共に掲げるのが『AIの民主化』。さまざまな企業や開発者がAIをスピーディー、かつ便利に使えるようにしたい」と話す。

TensorFlowでは、データの前処理(画像と正確なタグ付けラベル)から機械学習モデルのデザインと最適化、性能評価、デプロイ、アップデートというさまざまな工程が必要で、高精度なモデル構築を必要とする場合は「長いもので1年かかる」(大薮氏)ケースもあった。一方のAutoML Visionではデータの前処理とトレーニング、性能評価の工程に限られるため、データ量によっては1日で高精度なモデル構築が可能になる。

Learning2learnや転移学習、ハイパーパラメータチューニングといった自動学習機能を応用したもので、クラウドが自ら改善を繰り返した最適解を見出す。Googleのディープラーニングと言えば、世界最強の囲碁棋士を破った「AlphaGo」でも有名だが、最新世代のAlphaGo Zeroでは自己対戦を490万回も繰り返し、既存のAlphaGoに圧勝した。必ずしも同じテクノロジーを採用したわけではないが、このような改善のアプローチを応用した信頼性の高さは商用利用レベルといっても良いだろう。

●ディズニーはキャラクターの属性判定にAutoMLを活用

Cloud AutoMLは画像認識機能のVision以外にも提供を予定しており、今回はあくまで第1弾。そのためVisionも、現時点でα版の限定公開と、チューニング途上にある。ただ、アメリカではディズニーがWebサイトにおけるレコメンデーションにCloud AutoML Visionを採用。ディズニーのキャラクターや製品カテゴリ、色といった属性を製品ごとに関連付け、整理するのに利用しているという。

一方で高性能なものの、機械学習のテクノロジー自体はまだまだ発展途上だ。前述のGoogleフォトでは、2015年のサービスがスタートした際に、黒人ユーザーがアップロードした写真をグループ化したところ「ゴリラ」とタグ付けされた問題が生じた。その後、Googleは謝罪して問題を解消するとBBCにコメントしていた。

ただしこの問題の解決方法は「犬」や「猫」といったグループ化のような「ゴリラ」というキーワードを省くもの。ゴリラ以外にも人間以外の霊長類をすべて省いたことで誤認識問題を解消したのだが、2年強が経った2018年1月時点でも、これらのキーワードを排除していることが話題となった。

もちろん、これは一例であって、企業が活用する上で「小さいデータセット、リソースでビジネスに活用できるのがAutoML」と大薮氏は話す。

これまでは場合によって数千〜1万個のデータセットを用意し、さらに数百万円以上の多額のコストをかけて外注してシステムを構築していた。これに対してAutoML Visionでは、小規模なデータセット+ストレージ&サービス利用料というスモールスタートで済む。自社サービスに応用できるレベルにあるのか、気軽に「お試し」できるのがこのサービスの最大の魅力だ。

大薮氏は「ITエンジニアの総数は全世界で2100万人いるものの、データサイエンティストは100万人、ディープラーニングにいたってはさらに少ない」と話すが、その数少ない専門家の"コピー"のような存在をいかに早く使い倒すかが、遠くない将来に企業競争力の差として現れそうだ。