「AIに好奇心を与えるとスーパーマリオやDoomが上達」、カリフォルニア大学バークレー校のチームが研究成果を発表

カリフォルニア大学バークレー校の研究者が、AIの学習アルゴリズムに人間でいう"好奇心"となるモデルを組み込みました。そしてスーパーマリオブラザーズやDoomをプレイさせてみたところ、画面からの情報以外に特にフィードバックがない状態でもまるで人と同じような上達を見せたと発表しました。

昨年、プロ棋士を次々と倒したことで話題となったGoogleの囲碁AI「Alpha Go」は、モンテカルロ木探索、いわゆるモンテカルロ法という手法を用いて、次の一手を選びます。これは、それまでの経験と得られたものの相対的な関係から導き出される加重値から次に進むべき「枝」を選択していく方法。一般的に「強化学習」とも呼ばれ、我々の世界で例えれば、犬に「お手」や「おまわり」を教えるのと同じ方法といえます。

ただ強化学習の場合は、全体的な効率よりもその時点でどれを選ぶかが重要になってしまうため、いわゆる目先の利益を追ってしまい、場合によっては同じ失敗を永遠に繰り返すことも起こりえます。

しかし、カリフォルニア大学バークレー校の研究チームは、AIに即時の報酬がない場合でも敢えてそれを試行してみるようにしたとのこと。

研究者は好奇心と強化学習を組み合わせたAIに、スーパーマリオブラザーズやViZDoomをAIにプレイさせました。すると、たとえばスーパーマリオの場合は、以前は行き止まりの壁に向かって何度もジャンプするなどと言った行動を延々と繰り返していたのに対して、好奇心を備えたAIでは人間と同じように、敵キャラクターから逃げたり障害物を乗り越えるために操作の仕方を変えるなどの行動を試行し、徐々にスキルを上げていきました。またプレイヤーキャラクターが死んでしまうような行動を避けるようになったとのこと。



研究者は「現実世界における多くの行動では、付帯的な報酬はほとんどありません。そのような場合は状況を判断して後に役立つ(報酬になる)かもしれないと思える方向へ行動し、そこからなにかを学ぶのが好奇心の役割とも言えます」としています。

研究チームはこのほか、ロボットにAIを搭載して強化学習のテストを実施しています。強化学習ロボットはランダムな行動をすることで延々と時間を無駄にする可能性があるものの、そこに好奇心モデルを組み込めば、周囲の状況を探索して近くにある物体に対して何らかの行動をとることで経験を積むようになるだろうとしています。

フランス国立情報学自動制御研究所のディレクターPierre-Yves Oudeyer氏は「Ai研究者からも神経科学の文やからも異端扱いされていた人工的な好奇心の研究が、近年では双方の研究において主流を占めるようになってきている。これは非常にエキサイティングなことだ」と語っています。

ちなみに、この研究は今年後半にはいずれかのAI関連のカンファレンスで発表する予定とのこと。

・GoogleのAI『DQN』がアクションパズルゲームを攻略。やり残しの「Montezuma's Revenge」にリベンジ



新時代スマホ Galaxy S8 降臨祭 Sponsored by Galaxy