藤井聡太四段(写真=Rodrigo Reyes Marin/アフロ)

写真拡大

 AI(人工知能)にも多くの種類があり、eコマースやソーシャルメディアに使われている対話型のチャットボットは、「AI搭載」と銘打っていてもルールデータベースシステムが使われていることが多い。これは、あくまで人間が考えたシナリオに従って、「こういう質問をされたら、こう返事しろ」と、プログラムしているだけだ。つまり、機械自らが考えて判断していない点で、本当のAIではない。

 米アマゾンのAIスピーカー「Alexa」や米アップルの「iPhone」に搭載されている「Siri」などは、音声認識に機械学習の深層学習を使っているので、質問を判別する比率は高くなっている(判別するだけで意味を理解しているわけではない)。答えも、クラウドデータベースが後ろにあるため、言葉のやりとりの組み合わせの種類が膨大になっても取り扱える。会話が不自然さを感じさせないようになる。まるで、本当にAlexaやSiriが考えて判断しているように思える。そのため、表面的には知性があるように思えるだけだ。

 機械が自分で考え判断しているという意味では、米グーグルの子会社、ディープマインドが開発した、囲碁に特化したAI「AlphaGo(アルファ碁)」の例を挙げなくてはいけないだろう。世界のトップクラスの囲碁名人に勝利して話題になり、ニューラルネットワークの機械学習、そのなかでも深層学習(Deep Learning)が一般的にも使われる言葉となった。

 ニューラルネットワークの機械学習は新しいものではない。研究は、1940年代ごろから始まっている。

 人間の脳の中には多数のニューロン(neuron/神経細胞)が存在しており、各ニューロンは、多数のほかのニューロンから信号を受け取り、またほかの多数のニューロンへ信号を受け渡している。信号の受け渡しが常に行われる場合、神経同士の結合が強化され神経経路が構築される。脳は、この信号の流れによって、さまざまな情報処理を行っているわけだが、この仕組みをコンピュータ内に実現しようとしたものがニューラルネットワーク(neural network)だ。ただ、研究が始まった年代にはコンピュータの性能が低すぎた。

 機械学習(machine learning)とAIは、ほとんど同義語のように使われているが、あくまでAIというかニューラルネットワークの考え方やアルゴリズムのひとつ。子供が体験や教科書から学んでいくように、コンピュータがデータから学習していき、その結果を一般化(モデル化)する。たとえば、不動産の価格を予測したい場合、過去10年とか5年の物件に関するデータ(大きさ、部屋の数、トイレの数、その他詳細なデータ)とその物件の売価を入力して学習させる。学習の結果、ある物件の詳細データを入力すれば、その物件の価格を予測して出力してくれる。これを「教師つき学習」という。

 深層学習は、従来の機械学習よりも、より多くの神経細胞や神経細胞結合を実現したものだ。たとえば、アルファ碁のニューラルネットワークは13層になっている。

●AIの進歩の過程

 人間の認知活動におけるパターン認識を模倣実現することが可能になったのは、以下のような経緯を経てきたためだ。

1.コンピュータのパワーの発展…1990年代半ばから2010年ごろにかけ、並列処理コンピューティングや分散処理コンピューティングの登場により、膨大なデータを従来よりもコスト安かつ迅速に分析できるようになった。とはいえ、人間の脳は分散並列処理で、1000億のニューロンの一つひとつが1000から1万個のニューロンとつながっている。そして、fMRIで観察すると、脳内の多くのニューロンや神経経路が同時に活性化してタスクを実行している。そのせいで、どの部位がどういった役割をしているのか判断するのが難しいくらいだ。大規模なニューラルネットワークは、数十あるいは数百の複雑に相互につながっている層に配置された数千の疑似ニューロンをもつとはいえ、人間の脳とはまだまだ次元が違う。

2.ビッグデータの登場…膨大なデータで学習できる。その点において、グーグルやフェイスブックのような継続的に新しいデータが収集できるビジネスをしている企業は、IBMのようなビッグデータを収集する仕組みのない企業に対して、AIの研究・育成において大きく優位に立つことができる。

3.テクノロジーの進歩…ニューラルネットワークにおいてニューロン(神経細胞)の層や数を増やすことによって深層学習が可能になったことや、また、機械学習に強化学習を採用するようになったことも重要な進歩だ。強化学習ではコンピュータがあるタスクを繰り返し実行し、どの決定が最大の報酬をもたらしたかを記憶することで、どの決定が優れているかを自ら学習していくことが可能になる。強化学習は、最初に書いた行動心理学からアイデアを得ている。犬はご褒美がもらえるから芸をする。どの芸がより大きなご褒美をもたらすか学習するから、より難しい芸をマスターするようになる。機械も同じで、どの選択判断が最大の報酬をもたらすかを学習すれば、行動の選択肢と報酬をチェックすることで、みずから意思決定(選択)することができるようになる。

●アルファ碁の学習方法

 ここで、世界でトップクラスの囲碁名人に勝ったアルファ碁の仕組みをチェックしながら、深層学習や強化学習が、どのように活用されたかをまとめてみる。

 アルファ碁はグーグルが2014年に買収した英ディープマインドが開発した。16年3月に当時「世界一の囲碁棋士」といわれていた韓国のイ・セドル九段に4勝1敗で勝利している。そして、17年5月25日にも世界最強とされる中国の柯潔(カ・ケツ)九段に勝利を収めた。

 最初にアルファ碁の学習の仕方を説明する。

1.まず、プロの棋士が実際に試合した16万件の囲碁データベースからの3000万種類の手が、アルファ碁のニューラルネットワークに入力され、教師つき学習をする。

2.その後、アルファ碁は自分とは少し異なるバージョンのニューラルネットワークと繰り返し数百万回の試合をした。そのさい、アルファ碁は、強化学習手法によって、各試合ごとに自分にとって最大の報酬(この場合は、盤上で最大の陣地を獲得することができた手、つまり勝利をもたらした手)を記憶していった。それによって、アルファ碁は自分独自のレパートリーを獲得することができるようになった。

3.次いで、アルファ碁対アルファ碁の試合で使われた手をもう一つのニューラルネットワークに入力し、一手一手が最終的に勝利をもたらすかどうか、その確率を予測するように訓練させた。この時使われた手法はモンテカルロ木探索で、勝利する確率を計算した。人間ではない機械による数百万の手を2番目のニューラルネットワークに入力して、結果を予測するように訓練したわけで、これが直感を可能にしたと開発者は考えている。

4.つまり、2つのニューラルネットワークが一緒になって、局面ごとに手の最適化をする。一つのニューラルは、その局面でベストな選択肢の数を狭める。ついで、もうひとつのニューラルが、各選択肢がもたらす終局での勝率を計算する。このとき、使うのがモンテカルロ木探索手法だ。各選択肢が最終的にどのような結果をもたらすかを、すべの枝(可能性)をたどって計算することはコンピュータでも天文学的な時間がかかるので無理(打つ手の選択肢の多い囲碁のゲームの木の枝の総数は10の360乗、将棋は10の220乗、チェスは10の120乗。だから、AIは最初にチェスで人間に勝利をおさめ、次いで将棋、最後に囲碁で勝利した)。それで、可能性が高い枝をいくつかほとんど無作為に選んで、最終的結果の勝率を計算。その結果で、各選択肢に重みをつけ、ベストな選択肢(打つ手)を決定する。

 この学習の仕方をみても、アルファ碁が人間のプロの名人に勝利を収めることは当然であるとわかるだろう。いくら幼いころから将棋をうち、多くの経験をしているといっても(そして、むろん、過去の名勝負の手についても勉強して知識としてもっていても)、16万件の試合のなかの3000万種の手を記憶することはできないだろう。人間の脳はそこまで容量がない。

 アルファ碁にしても、名人に勝ったとされるほかのAIにしても、碁に特化したAIだ。そのうえ、コンピュータは24時間寝ないでご飯も食べないで勉強できる。プロの名人になる条件に、子供のころからなるべく多くの経験を積むことがあるとしたら、それだけでAIに負けてしまう。

●アルファ碁に「直感」はあるのか

 次に、アルファ碁に直感があるかどうかの話に移ろう。

 アルファ碁がイ・セドルに勝利を収めたとき、AIが直感を獲得したかどうかが話題になった。問題になったのは、第二局の黒の37手だ。イ・セドルだけではなく、AIと対決して負けた囲碁や将棋の名人の多くは、「(AIは)人間が気がつかない手を打つ」とコメントする。あるいは、また、「囲碁と違う競技を見ているようだ」というコメントもあった。黒の37手もそのひとつで、常識からかけ離れた手だったらしい。実際、最初に学習させた3000万種の手のなかには存在していないものだった。

 アルファ碁の開発責任者で強化学習の専門家のデビッド・シルバーは、黒の37手は、明らかにAIが人間でいうところの直感を発揮したと考えている。試合のあと、シルバーが調べてみると、アルファ碁は、この手をプロ棋士が打つ確率は1万分の1だという計算をしていた。その手を確率が非常に低いにもかかわらず打ったということは、アルファ碁の直感が働いたからだとシルバーはいう。

 シルバーは、「アルファ碁はプロの棋士が使う確率は1万分の1と非常に低いことを打つ前に知っていたが、同時に報酬が多いことも知っていた」と語る。「アルファ碁は内省(introspection)と分析の結果、自分でそれを発見したんです」と分析している。

・AIと将棋や囲碁をして負けた名人の幾人かが、「人間が打たない手を打つ」とコメントしている。これは、人間の認知バイアスで説明がつくのではないだろうか。プロは、従来プロが打ってきたパターンを勉強する。それが代々続いているわけだ。時々、まったく新しい手が発見されることがあるようだが、それでも、各名人の脳の中の記憶にあるのは、ある程度似通った内容だろう。だが、ゲームに特化したAIのなかには数千万件のデータがあり、そのデータをつかってAI同士で数百万回の試合をしている。新しい手を発見する確率はより高くなる。

・最終的勝利の確率をするモンテカルロ木探索手法は、モンテカルロ木探索ヒューリスティクスとも呼ばれる。なぜなら、すべての枝を最後まで追跡することは天文学的時間が必要になるので、コンピュータでも無理。ほとんど無作為に最終的勝利をもたらすような枝だけを追跡するようにする。「ほとんど無作為に」という言葉に、直感が含まれているかもしれない。完全な無作為ではなくて、過去に勝利に導いた手とか、今の試合で良かった手といったデータに基づいて重みを変えて選択している。これを直感と呼べるのかもしれない。この場合、「無作為/random」という言葉を人間的に「無意識」に変えてもよいかもしれない。

 以上のような推測はできるが、その真偽のほどは不明だ。なぜなら、人間の直感や勘についての仕組みもわかっておらず、どちらも“ブラックボックス”だからだ。

●藤井聡太の強さの要因

 ニューラルネットワークの深層学習+強化学習を使って、結果として「ゲームでは人間に勝てるようになった」「グーグル検索でより正確なマッチングができるようになった」」「フェイスブックが写真から人間の顔を認識できるようになった」などといっても、中身がブラックボックスでは、人間の脳の意思決定プロセスが明らかになっていないのと同じではないか。

 ディープマインドの創立者のひとりでCEO(最高経営責任者)のデミス・ハサビスは、computational neuroscience(計算論的神経科学/これは人類の知性がどのようなものかを学ぶことで、どうやって知的コンピュータを創るか研究する学問だそうだ)や認知神経科学を学んでいる。だから、人間の脳の仕組みについてはよくわかっているはずだ。

 ディープマインドは、大脳皮質をリバースエンジニアリングするといっている。同じように、AIをリバースエンジニアリングすることで、ブラックボックスを明らかにしようという試みも始まっている。AIが、どうやって、そういった結論に達したのか、所有者が知らなければ、法律的問題になる可能性もある。EUは2018年には、AIが下した結論について(融資の可否、病状診断、その他)、AI責任者はユーザーに答えることができなければいけないという規則をつくるかもしれないのだ。

 最後に、囲碁や将棋の話に戻る。アルファ碁に負けたイ・セドルは、試合後に、コンピュータと対決することで「(自分は)もう前より強くなりました。コンピュータから新しいアイデアをもらったんです」と語っている。

 日本の将棋界でも、昨年のデビュー以来29連勝を達成した中学生棋士・藤井聡太四段は、1年前から将棋ソフトを活用している。それが強い要因のひとつではないかといわれている。ソフトは1手ごとに先手後手のどちらがどのくらい有利かを数値で示すが、藤井四段はこれを参考にしているそうだ。実際に、藤井四段は「ソフトを繰り返し使うことで、特定の局面がどちらがいいかを判断する力は磨かれていったと思う」とコメントしている。これは、アルファ碁の強化学習の仕組みと似ている。

 人間にはさまざまな認知バイアスがある。本連載では、脳の記憶容量の制限から生まれるバイアスが中心になったが、感情に影響される認知バイアスもある。感情がないコンピュータは、その弱点をカバーして正しい判断に導いてくれるだろう。人間もAIと、米SFテレビドラマ『スタートレック』のカーク艦長とミスター・スポックのような関係になれれば、これまでの何十万年の進化の歴史でしてきたように、また大きな困難を乗り越えることができるようになるのではないだろうか。
(文=ルディー和子/マーケティング評論家)