人工知能と人間の能力の優劣はどのような関係にあるのか?ということで、電子フロンティア財団(EFF)がゲーム・画像認識・言語などのカテゴリにおいて、人工知能の能力は人間の能力にどれくらい追いついているのかをグラフ化しています。グラフを見ると、既に人工知能が人間を追い越しているもの、まだまだ差があるもの、あと少しで追い越されるであろうものなどが歴然となっています。

AI Progress Measurement | Electronic Frontier Foundation

https://www.eff.org/ai/metrics

人工知能と人間の能力の比較は「Game Playing(ゲーム)」「Vision and image modelling(視覚とイメージモデリング)」「Written Language(書き言葉)」「Spoken Language(話し言葉)」「Scientific and Technical Capabilities(科学技術の能力)」「Learning to Learn Better(効率よく学ぶための学習)」「Safety and Security(安全とセキュリティ)」という分類にわけて行われました。

ということで、グラフの一例は以下の通り。

まずは「Game Playing(ゲーム)」から。人工知能のチェス能力の発展をグラフ化したのが以下で、縦軸がイロレーティングの成績、横軸が年代を示しています。赤い点線は人間が「最高のプレイをしたとき」の成績で、2882点を示しています。グラフでは、2006年にチェスエンジンの「Rybka」が2995点を記録することで人間の能力を追い抜いています。



また、Atariのゲーム各種と人間の能力の比較も行われており、ゲームによって人間を追い抜いているか否かがハッキリとわかれているのが非常に興味深いところ。例えば、Atari 2600 Amidarは、2015年に行われたDQNのテストでは978点で人間の能力に至らなかったのですが、Double DQN(DDQN)のテストでは1793点、DDQNにDueling Networkを実装したアーキテクチャでは2354点と、人間の能力をはるかにしのいでいます。



一方で、Atari 2600 Asteroidsは、2017年時点でも、グラフが人間の能力を示す赤い点線に届かず。



Atari 2600 Q*Bertは人間のパフォーマンスが13455点のところ、2015年10月にDDQNが14875点に到達しています。



「Vision and image modelling(視覚とイメージモデリング)」では、人工知能と人間の画像認識能力が比較されていました。縦軸がエラー率、横軸が年代を示していて、人間のエラー率は0.051であるところ、2015年12月10日にMicrosoft Research Asia(MSRA)の人工知能が0.03567というエラー率を報告しています。



また、Google Mapsの画像認識アルゴリズム「Street View House Numbers(SVHN)」のデータセットを使ったエラー率を示したグラフはこんな感じ。人間のエラー率が2%であるところ、2013年にRegularization in Neural Networksが2%を下回るエラー率を記録しています。



続いて「Spoken Language(話し言葉)」カテゴリ。Switchboard Hub5'00ベンチマークにおいて、音声認識のエラー率がどのように変化してきたのかを示したのが以下のグラフです。Baiduの「Deep Speech」や「RNNLM」などの人工知能が競いながらも成績を上げていき、人間のエラー率が5.9%のところ、2016年10月にCNN-LSTMが5.9%に至りました。



翻訳能力について人工知能と人間を比較したグラフがこれ。縦軸が機械翻訳の品質評価に使われるBLEUスコアの点数、横軸が年代で、人間のスコアは50に設定されています。2017年時点でも人工知能は人間の翻訳能力に届いていないものの、徐々に正確性を増してきていることが見て取れます。



以下は人工知能と人間の読解力を比較したグラフ。人工知能の論理的思考力をテストするためのbAbIデータセットが用いられたところ、子ども向けの本の場合、人間の読解力の正解率である81.6%に人工知能はまだ追いついていませんが、2016年に発表されたNeural semantic encoders(NSE)が頭1つ飛び出ていました。