囲碁でだめなら、お次はポーカーだ──人類に残された「AIとのゲーム」

2016年3月21日 8時0分

IBMのスーパーコンピューター「Deep Blue」がチェスの世界チャンピオン、ガルリ・カスパロフを相手に勝利を収めたのが1997年。そして2016年にはグーグル傘下DeepMindの囲碁AIがイ・セドル相手に4勝1敗と勝ち越した。その前年の2015年、人工知能はトッププレイヤーに挑んだ。種目はポーカー。それも、「無制限テキサスホールデム」である。

「囲碁でだめなら、お次はポーカーだ──人類に残された「AIとのゲーム」」の写真・リンク付きの記事はこちら

まずは今回参戦したコンピューターを紹介しよう。その名はClaudico。Deep Blueの開発に携わったカーネギーメロン大学が新たに開発したAIだ。一方、人類を代表して戦うのは以下の4名。ジェーソン・レス、ドン・キム、ビョルン・リー、ダグ・ポーク、いずれも世界最高峰のポーカープレイヤーである。本大会は、「無制限テキサスホールデム」でコンピューターが人間と対戦した史上初の試合となった。

無制限テキサスホールデムは、AI研究者にとってとりわけ興味深いゲームである。というのも、ポーカーにはさまざまな種類があるが、なかでもこの無制限テキサスホールデムは、極めて洗練された方式だからだ。

まず各プレイヤーには、表を伏せた2枚のカードが配られる。ここで賭け金を決め（降りてもよい）、次いでディーラーはすべてのプレイヤーに対し、合計5枚のカードを表向きに示す。まずは3枚（「フロップ」と呼ばれる）、続いて2枚（「ターン」）、最後に1枚（「リヴァー」）。それぞれのカードの提示後に賭け金を上乗せる（あるいはゲームから降りる）ことができる。

テキサスホールデムのルールについては、こちらのYouTube動画をご参照されたい。

制限付きテキサスホールデムではプレイヤーが増額できる金額は決まっているが、無制限の場合、1チップから手持ちの全額を賭ける「オールイン」まで、好きなだけ賭けてもよい。自分の手が強ければ、より大勝ちを狙って賭け金を釣り上げてもいいし、弱い手ならハッタリをかまして、相手に降りてもらうのもアリ。難しいゲームである。

実際その難しさゆえに、1990年代以降多くのAI研究チームがポーカーに注目しており、今日ではAIプログラムを評価する最も重要な指標のひとつとなっている。チェスと異なり、ポーカーでは十分な情報を集めることができない。どのプレイヤーも完全なデータをもち合わせてはいないからだ。つまり、データが不十分な状況においても最善の戦略を決定できるようなアルゴリズムが求められる。おそらくその技術はサイバーセキュリティーや医療、軍事戦略の立案にも応用可能だろう。

「現実世界とは、まるでデータ不足のままゲームをしているようなものです」と語るのは、Claudico開発チームのトゥオマス・サンドホルム。「世界の状況を完全に把握することは不可能です。すべての人間の個人情報を知ることはできませんから」

それでも、コンピューターはこれまで多くの課題を乗り越えてきた。そして無制限テキサスホールデムは、最後にして最大の挑戦なのである。サンドホルムの見積もりによれば、1ゲームの間に生じるであろう戦局のパターンを数え上げると、この宇宙にあるすべての原子の数よりもはるかに多くなるという。

ポーカープログラム

サンドホルムの研究チームは、Claudicoの開発を段階に分けて進めた。第1段階は、抽象化アルゴリズムを用いて無制限ホールデムのルールを教え込む。このときルールの全体像を把握しやすくするため、ゲームの規模を縮小・簡略化した。第2段階、ゲーム理論における「ナッシュ均衡」（最適戦略を見つけるために使われる概念）に可能な限り近づくよう、アルゴリズムを修正する。第3段階として、チームはリヴァースマッピングの技術を駆使し、得られた最適戦略を簡略化以前のオリジナルルールに基づいたアルゴリズムに取り込み、応用できるようにした。

プレイヤーとしてのClaudicoは、ありがちなパターンに陥ることがない。これは、賭け金が大幅に変動する無制限ルール下にあって、人間に対しClaudicoがもつ非常に有利な特質であった。

「通常、人間は自分の手札を知られるのを恐れて、せいぜい2パターンの金額しか賭けられません」とサンドホルムは言う。「Claudicoは論理的思考しかしないので、賭け金が一定のパターンに偏ることがないのです」

しかし一方で、無制限ポーカーはコンピューターの演算機能に著しい負担をかける。結果、Claudicoのプログラマーは、すべての問題に解を見出すアルゴリズムを生み出すことができなかった。

「われわれは、人工知能における古典的問題にぶつかりました。解の精度を高めるには、莫大な時間がかかるということです」とサンドホルムは説明する。「時間は限られているので、アルゴリズムの構築には多少妥協せざるをえませんでした」。Claudicoはナッシュ均衡に近い解を見つけることはできる。とはいえ、対戦相手の1人ひとりの傾向にまで対応することはできない。Claudicoにできるのは、環境に左右されない範囲で論理的に最善の答えを導くことまでなのだ。

人間的要因

ある意味、Claudico型のアプローチは、人間のポーカープレイヤーにとっても理想かもしれない。「最適化理論を用いれば、対戦相手に惑わされることなくゲームを進められるからね」と語るのは、大会に参加したジェーソン・レスである。

「その場合、最悪でも引き分けにはもち込めるだろう」。レスはいまでも人類の方が優勢であると考えているが、それがなぜなのかを説明することはできないという。「何が起こるのかは、まったくわからなかったね。このプログラムがあまりに優秀なもんだから、こりゃあ勝てないなと思ったときもあったよ」

変幻自在のClaudicoをなんとか討ち取ろうと、4人のプロフェッショナルたちは常に作戦を変化させ、狡猾に攻撃を続けた。例えばClaudicoは、カードリムーヴァルには対応できていないらしい。自身が持つ2枚の手札から、ほかのプレイヤーの手札の組み合わせを予測する方法である。レスの見たところ、Claudicoはこれをまったく考慮に入れていないのだ。そのためAIが弱い手を隠し、大きく賭けて相手を勝負から降ろさせようと目論んでも、人間の側にはそれを見抜けてしまうのである。

2015年5月、ダグ・ポークとClaudicoの対戦。

AIの一見完璧な武装のほころびは、ほかにもあった。相手の賭け金への反応の仕方である。Claudicoは最適解を探すために「ゲーム空間」を行き来しなければならない。その空間をできる限り小さいものにしておくため、プログラムが認識できる賭け金の額は何種類かに限定されていたのだ。

だから、もし誰かがポット（賭け金の総額）の半額を賭けたとして、その金額がプログラムの設定外であった場合、Claudicoは一定の割合で賭け金がポットの4分の3であったときの反応を示し、また一定の割合で賭け金がポットの4分1のであったときの反応を示す。これは大きな問題だ。要するに、AIはいつも正しい動作をするとは限らないのである。人類はこの点につけこんだ。

「まずビョルンが、ありえないような大金を賭けたんだ」とレスは語る。「それから普通の金額との間を行ったり来たりして、Claudicoの調子を狂わせたんだ」

そしてついに、人類は勝利を収めた。Claudicoの最適化戦略を出し抜いたのである。ラスト一手までに、賭け金の総額はおよそ1.7億ドルとなり、人間側のプロチームが73万2,713ドルを勝ち越した。だが、サンドホルムはこれを負けとは認めない。その差は信頼度95パーセントに満たないものであり、統計学的にみれば引き分けだと言うのだ。

もちろんこの意見に納得しない者は多い。レスもほかの3人も、最終的な金額差が、誰が勝者かを明らかに物語っていると考えている。また、少なくともひとりのAI専門家が彼らと同意見だ。

「ポーカーの世界では、儲けた金額がすべてでしょう」と語るのはマイケル・ボーリング。彼もまた、Cepheusという名の新たなポーカープログラムの開発者だ。とはいえ、今大会の結果がAIの驚くべき進化を証明したという点で、開発者とポーカープレイヤーたちの意見は一致している。

Deep Blueはカスパロフに繰り返し勝負を挑み、勝利を収めるまでに8年を要した。それに比べたら、ポーカープログラムの研究はまだまだ日が浅い。「いまはまだ人類の方が強いかもしれませんが」とボーリングは言う。「それは時間の問題にすぎないのです」

心せよ、奴らは必ず戻ってくる。

キャメロン・タン｜CAMERON TUNG
ライター。『WIRED』US版のほか、『The New Yorker』『Slate』『The Atlantic』『Splitsider』といったメディアにおいてコントリビューティングライターとして活動。ニューヨーク在住。＠cameronheydt

SLIDE SHOW

1/11【AlphaGo記事まとめ】
なぜ「囲碁」だったのか。なぜ「10年かかる」と言われていたのか──AlphaGo前日譚（2016.3.15）
グーグル傘下のDeepMindが開発した囲碁AI「AlphaGo」は、見事に人類を凌駕した。しかしつい最近まで、AIは棋士に勝てない、そしてブレイクスルーには10年を待たねばならないと言われていた。かつて「囲碁」という名のミステリーに挑んだフランス製のAI「Crazy Stone」の戦いを記したドキュメントから、いま、AIが加速させていく未来を読み解くことができる。PHOTOGRAPHS BY TAKASHI OSATO

2/11【AlphaGo記事まとめ】
グーグルの人工知能、囲碁の欧州チャンピオンに5連勝（動画あり）（2016.1.30）
「チェスと比べてグーゴル倍（10の100乗倍）」とされる複雑さをもつ囲碁。グーグルの人工知能（AI）が、欧州大会を3度制したプロ棋士に5連勝した。

3/11【AlphaGo記事まとめ】
「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた（2016.1.31）
「囲碁において、機械が最強の人間を打ち負かすにはあと10年は必要だろう──。そんな専門家たちの予想を、グーグルが4億ドルで買収したブレイン集団「DeepMind」は見事に裏切った。彼らはいかにして最強のコンピューターをつくり上げたのか。この快挙は、どんなAIの未来を指し示しているのか。PHOTOGRAPHS COURTESY OF GOOGLE

4/11【AlphaGo記事まとめ】
グーグルAIと囲碁世界チャンピオンの対局、「YouTube」でライヴ配信へ（2016.2.8）
グーグル傘下のDeepMind社の人工知能（AI）と、囲碁の世界チャンピオンが3月に韓国で行う歴史的対局が、ストリーミングでライヴ配信されると発表された。

5/11【AlphaGo記事まとめ】
観戦速報・グーグルの囲碁AI「AlphaGo」が最強の棋士を破った日（2016.3.9）
グーグルの人工知能（AI）と、世界最強棋士のひとりとの5連戦。接戦となったその第1戦は、人がAIに敗れるという結果に終わった。2016年3月9日は、これからのAIを語るうえで重要な日となる。PHOTOGRAPHS COURTESY OF GOOGLE

6/11【AlphaGo記事まとめ】
「アルファ碁は芸術以外の何物でもない」人工知能が天才棋士を3タテ：DeepMindチャレンジを制する（2016.3.13）
人工知能（AI）と世界最強棋士とで争われる「DeepMindチャレンジ」は3月12日に第3局を終え、AI「AlphaGo」による3連勝で折り返すこととなった。この歴史的な局面に際し、イ・セドル九段をはじめAphaGoを開発したDeepMind CEOらがコメントを寄せている。AP/AFLO

7/11【AlphaGo記事まとめ】
「今日の勝利はほかの何物にも代えがたい」イ・セドル九段、人類待望の勝利に歓喜、賞賛：大接戦が予想される最終戦は明日15日（2016.3.14）
人工知能（AI）と人類との囲碁対決に、新たな局面が現れた。4度目の対局で、“人類代表”棋士イ・セドル九段がAI「AlphaGo」を相手に初めての勝利を手にした。15日に開催される最終戦を前に、セドル本人ならびにAlphaGoを開発したDeepMindのCEOらがコメントを発表している。AP/AFLO

8/11【AlphaGo記事まとめ】
「またこれから学ぶことが増えました」AlphaGoとイ・セドルが、囲碁にもたらしたもの、AIにもたらしたもの（2016.3.16）
DeepMindの囲碁AI「AlphaGo」と世界最高峰の棋士のひとり、イ・セドルとの最後の対局は、AlphaGoの勝利で幕を閉じた。世界中が注目した対局を終え、関係者たちがいま思うこと。AP/AFLO

9/11【AlphaGo記事まとめ】
DeepMind：AlphaGoをつくった「4億ドルの超知能」はいかにして生まれたのか？（2015年12月1日発売雑誌『WIRED』日本版VOL.20から転載）
グーグルが4億ドルで買収をしたロンドンの人工知能スタートアップ、DeepMind。ついに人間を破った囲碁AIをも生み出した彼らは、いかにして生まれ、何を目指しているのか。 AI研究のために生まれてきたような3人の天才創業者の、半生とヴィジョンに迫る。

10/11【AlphaGo記事まとめ】
もし、AIが囲碁で人間を打ち負かしたなら（2016.3.9）
AI研究者たちは、なぜかくも囲碁に夢中なのか。囲碁マシンの進化は何を意味するのか。『WIRED』US版でAI関連の記事を多く手がけるライター、ケイド・メッツの論考。

11/11【AlphaGo記事まとめ】
グーグルらが人工知能で「囲碁の謎」に挑む理由（2016.1.1）
しかし、グーグルとフェイスブックが研究を進めるディープラーニングによって、AIはついに人間を打ち負かしうるかもしれない──。両社のトップ研究者たちが見据える、「囲碁という謎」の解決への道を取材した、2015年末の『WIRED』US版記事の翻訳。

Prev Next

みんなの感想は？

ポーカープログラム

人間的要因

INFORMATION

『WIRED』VOL.20は、「人工知能」と「都市」の2大特集・特別保存版

ランキング