米グーグル傘下の「DeepMind」は10月18日、最新のAI囲碁プログラム「AlphaGo Zero」を発表した(DeepMind公式サイトより)

グーグル傘下の「DeepMind」は10月18日、最新のAI囲碁プログラム「AlphaGo Zero」を発表した。

「AlphaGo Zero」はこれまでの人間の打ち筋を学習するディープラーニングの手法を用いず、自己学習のみで棋力を高めたことが特徴。これまでの最強のAI囲碁プログラムだった「AlphaGo」およびその改良型である「Alphago Master」を圧倒する強さに達したと英科学誌「ネイチャー」が発表し、話題となった。

「たった3日」で最強棋士になってしまった

数千年という時を経て、人間が創意工夫を重ねて囲碁の定石は生まれてきたが、今回のAlphaGo Zeroでは、そうした過去のデータベースをAIに与えず、自身が相互対戦することで最善手を学習する手法を3日間に500万回繰り返させることで棋力を向上させた。

「たった3日で最強棋士になってしまった」というAlphaGo Zeroに「とうとうAIが人間を超えるときが来た」とう畏怖の念が込められた意見や感想も目立つが、本当にそうなのだろうか。

確かにこの分野におけるDeepMindの研究開発成果には目を見張るものだ。しかし、そのめざましい成果は、人間の知恵と工夫の積み重ねの上に成り立っているものだ。それは“畏れ”るべきものではなく、新たな発見・発明を呼び起こすためのツールとして、AIという技術が光を放ち始めたことを示している。

ネイチャー誌の論文によると、AlphaGo Zeroはトップ棋士を打ち負かして驚かせた「AlphaGo」に対して100戦全勝、その改良版である「Alphago Master」にも100戦中89勝したという。あらかじめプログラムされた定石が“Zero”の状態から、3日間で500万回の自己対局をこなし、その中で発見した打ち筋から自己学習を繰り返したという。これまでのAlphaGoは人間の対局を学習させたうえで、自己対局を行うことで棋力を高める手法が用いられていた。

成果としては素晴らしいが、“畏れを抱く”のは、あたかもコンピュータ自身が囲碁を理解し、インスピレーションを得て、新しい打ち筋を発明していったかのように感じられるからではないだろうか。実際、AlphaGo Zeroが見つけた定石には、人間が見つけてきた定石と重なるものが数多くあり、また一部にはまったく新しい定石もあるという。

人間を超えた発明の力を、AIは獲得しようとしているのではないか?との畏れや、AIによって創造的な職業までがその将来を脅かされるといった考えを持つ人たちが現れるのも不思議ではない。状況証拠はそろっている。

言うまでもなくコンピュータの計算能力は半導体技術とクラウド技術の進化により急速に巨大化しており、凄まじい速度で自己対局と自己学習を繰り返せるようになった。基礎となる情報――すなわち自己学習し、より優れた打ち筋を探さなくとも、すべての定石を自分自身で発見できるほどの洗練された解法をプログラムし、そのプログラムを凄まじい速度で実行できる計算能力を示した点が、今回のニュースのポイントだ。

しかし、コンピュータ自身が囲碁を客観的に理解し、どのように打っていくべきかインスピレーションを得ながら打っているわけではない。

囲碁の打ち方、対局が進むにつれて変化する戦局を評価・数値化する方法などを考え、プログラムするのは、あくまでも人間だ。自己学習による強化は、人間が考えてプログラムした手順が、より最適に動作するよう……この場合は最善手は何であるかを試行錯誤の上に調整していく仕組みにすぎない。

新たな定石を発見したのは、人とは異なり何らかの“観念”にとらわれないため、従来の常識からは考えられないような打ち筋も試すAI棋士ならではの現象とも言える。つまり“考えていない”からこそ見つかったということだ。同様の現象は、将棋における人間対AIの対局にも見られることがある。

コンピュータが解決方法を作り出すわけではない

昨年、プロジェクトの終了がニュースとなった「ロボットは東大に入れるか(通称:東ロボくん)」をご存じだろうか。国立情報学研究所の新井紀子博士が中心に民間企業や大学の研究者も参加したこのプロジェクトは、センター試験をAIに受けさせ、東大受験で合格A判定を目指したもの。このうち世界史Bを担当した日本ユニシス(偏差値66.5を記録)に取材したことがある。

多くの人が「コンピュータは問題の答を、どのように考えて正しい答を導いているのか」と想像するだろうが、実際にはセンター試験で出される問題をタイプごとに分類。問題のタイプごとに異なる解法をプログラマーが考え、プログラムとして実装したうえで教科書の情報とWikipediaの情報を突き合わせて学習させていた。

しかも複数種類のプログラム……つまり、複数の解き方を考えて実装し、合議制で正しい答を見つけ出すという方法。問題の意図などを理解しているわけではなく、あくまで確率的に正しいと思われる答を選択するにすぎない。

細かな解法に関しては省略するが、問題ごとに解決方法を考えるのはプログラマー(人間)であり、その解決方法をコンピュータが作り出すわけではない。人が問題を解くことと、AIが問題の正しい答を見つけ出すことは、根本的な部分に違いがある。

AlphaGo Zeroに話を戻そう。

AlphaGo Zeroが証明したのは、AIが正しい答を素早く見つけ出すための道具として、次のステージに進んだということではないだろうか。人間が発見してきた定石などの基礎情報を与えなくとも、より確かな答(よりよい打ち筋)を求めて計算し、見つけ出す力は想像を超えるレベルにまで達してきた。

人間が問題解決の糸口となる“考え方”“解法”をプログラム。その元になっている仮説や考え方が正しい方向を向いていれば、DeepMindの開発チームが言うように「人間の知識に制約されなくなった」分だけ、より自由な発想、想像もしていなかった方向性への発展性が望める。

問題解決のツールとして、これは大きな一歩と言える。そこに“畏れを抱く”要素はない。