グーグルの画像認識システムは、まだ「ゴリラ問題」を解決できていない──見えてきた「機械学習の課題」

2018年1月18日 8時0分

自分と友人の写真を「Google フォト」が「ゴリラ」とタグ付けしている──。ある黒人のソフトウェア開発者が、そんなツイートをする出来事が2015年にあった。

グーグルは「非常にショックを受けており、心からお詫びする」との声明を出し、問題に対応した同社のエンジニアはゴリラのタグを当面は使用停止にすると公表。そのうえで、「長期的な解決策に取り組んでいく」と話していた。

2年以上経ったいま、その“解決策”はGoogle フォトのタグの一覧からゴリラやそのほかの霊長類の名前を削除することにとどまっている。グーグルをはじめとするIT企業は、自律走行車やヴァーチャルアシスタントなどに画像認識技術を活用していく考えだが、この苦し紛れの場当たり的な措置は、技術の進歩において企業が直面する問題を浮き彫りにしている。

一部の霊長類には写真検索が機能せず

Google フォトはウェブサイトまたはアプリから利用でき、ユーザーは5億人に達する。写っているものを機械学習技術によって自動的に分類する機能があり、保存した画像のコレクションをキーワード検索することも可能だ。

『WIRED』US版が4万枚の動物の写真を使ってこのシステムをテストしてみたところ、パンダやプードルを含む多くの動物は見事に検出された。だが、「ゴリラ」「チンパンジー」「猿」といった単語では「検索結果はありません」との答えしか返ってこなかった。

一方で、検索が機能した霊長類もある。「ヒヒ」「テナガザル」「マーモセット」「オランウータン」は大丈夫だったし、オマキザルとゲレザは後ろに「サル（Monkey）」という単語を付けずに検索すれば結果が表示された。

ダイアン・フォッシー研究所とNPOのChimp Havenが提供しているチンパンジーとゴリラの写真20枚を使った第2のテストでは、「森林」「ジャングル」「動物園」といった検索単語で類人猿を探し出すことができたが、残りはやはり見つけるのが難しいという事実が明らかになっている。

ここまでの結論を言うと、Google フォトではヒヒはヒヒとして認識されるがサルはそうではなく、ゴリラとチンパンジーは透明人間のように見えない存在だ。

さまざまな人種の「人間」を人工知能はどう見るか

そこで第3のテストでは、顔認識技術の研究に使われる写真1万枚以上を使って、Google フォトが人間をどのように見ているかを調べてみた。

すると、「アフリカ系アメリカ人（African American）」で結果として出てきたのは、なぜかブルーバック亜科（アラビア半島やアフリカに生息するウシ科の動物）の写真だけだった。「黒人男性（black man）」「黒人女性（black woman）」「黒人（black person）」で検索すると、一連の白黒写真が表示される。

しかし、性別は認識するが、人種はできないようだ。黒い肌の人々を正しく検出できたキーワードは「アフリカ系（Afro）」と「アフリカ人（African）」だけで、それも完全に正確ではなかった。

グーグルは『WIRED』US版の取材に対し、15年の事件以後は「ゴリラ」が検索単語からもタグからも外されたほか、「チンパンジー（chimp、chimpanzee）」と「サル」もブロックされていることを認めた。広報担当者は、Google フォトではユーザーが間違いを報告するシステムがあることを強調したうえで、「画像分類の技術はまだ新しく、残念ながら完璧からはほど遠いものです」としている。

浮き彫りになった機械学習の課題

ゴリラの画像を巡る同社の慎重な対応は、既存の機械学習技術の欠陥を明らかにしている。

十分なデータと計算能力があれば、画像や文字情報を分析するソフトウェアをかなりの精度にまで訓練することは可能だ。しかし、ソフトウェアをその訓練を超えたレヴェルに到達させることは容易ではない。最高のアルゴリズムでさえ、人間のように常識や抽象概念といったものを用いて世界を解釈する能力はもたないのだ。

結果として機械学習のエンジニアたちは、訓練に用いたデータに存在しない“例外”の心配をしなければならない。ヴァージニア大学教授のヴィセンテ・オルドニェス・ロマンは、「システムが実際に稼働したときに、それが出くわすものすべてをモデル化するのは非常に困難です」と言う。ロマンは昨年、画像認識に使われている機械学習アルゴリズムが、ジェンダーロールをめぐる社会的偏見を検知し、それを増幅する可能性があることを明らかにした研究に携わった。

Google フォトには、不完全な状況で撮影された写真が非常に多くアップロードされる。データベースにある画像の膨大な量を考えれば、特定の大型類人猿を別の種類のそれと取り違えるといった失敗は、ほぼ確実に起こるだろう。

グーグルの親会社アルファベットやIT業界は、自動運転のようなさらに重要な分野でも、この種の問題に直面する。ロマンはヴァージニア大学で働くソフトウェアの信頼性評価の専門家バイシャキ・レイと共同で、自動運転など特定の状況で画像認識システムの動作を制限する方法を探っている。

レイによると一定の進歩は得られたが、こうした制限をどれだけうまく管理できるかはわからないという。そのうえで、「機械学習モデルが何を学んでいるのか具体的にはわかっていません」と、レイは指摘する。

「ゴリラ」を認識できる人工知能

ゴリラを検出できるグーグルの機械学習システムもある。Google Cloud Platformのひとつである「Vision API」は、システムへの組み込みが可能な画像コンテンツ分析システムだ。これを利用したオンラインデモで、ゴリラとチンパンジーの写真を試したところ、どちらも被写体の認識が可能だった。

Vision APIのシステムは、画像に含まれている物体を検知し、関連性が高いと思われるタグのリストをスコアとともに表示する。例えば、双子の赤ん坊を抱いている成人ゴリラの写真は94パーセントのスコアで「ニシゴリラ」とタグ付けされたほか、「哺乳類」と「霊長類」のスコアも90%超だった。

ヴァーチャルアシスタントの「Google アシスタント」も、ゴリラを「ゴリラ」と呼ぶことを許されている。Android携帯にはGoogle アシスタントを呼び出して携帯のスクリーンに何が表示されているかを説明させる機能があるが、先ほどの双子の赤ん坊ゴリラの写真を見せると「マウンテンゴリラ」だと言われた。

しかし、昨年10月に「コンピューターヴィジョンの進化」を示すものとしてGoogle フォトに追加された「Google レンズ」という機能では、違ったことが起きる。同じ画像を見せても、「うーん…ちょっとわかりません」という答えが返ってくるのだ。