人工知能を研究するGoogle傘下のDeepMindが、強化学習を用いてAIに障害物をクリアする術を自己学習させた成果を論文「Emergence of Locomotion Behaviours in Rich Environments」として発表しました。棒状のパーツからなるフィギュアが、自らあみだした不気味な動きで障害物を次々とクリアする成果はムービーでも公開され、来るべきロボットの進化を予感させるものとなっています。

[1707.02286] Emergence of Locomotion Behaviours in Rich Environments

https://arxiv.org/abs/1707.02286

スティック・フィギュアが、次々とクリアする圧巻のムービーを見れば、この技術の凄さが一発で理解できます。

Emergence of Locomotion Behaviours in Rich Environments - YouTube

アクチュエーターを備えた可動性の棒状パーツでできた胴体と足だけのモデル。



足を器用に動かして走っていき、赤色の障害物をうまく乗り越えています。



目はありませんが、周囲の環境を感知する能力はあるので、障害物を把握することができます。頭上(胴上)の障害物に対しては、のけぞるように姿勢を低くして、どんどん先へ進んでいきます。



高さのある壁も、見事にクリア。絶妙のバランス加減です。



うまく乗り越えられない高い壁に対しては……



一度後ずさりするような仕草を見せて、助走をつけてやり直してクリア。



大きな隔たりもジャンプして飛び越えます。このスティック・フィギュアの動きはプログラムされたものではありません。ただ、「前進せよ」という命題を与えられたAIが、周囲の環境を読み取って環境から得られる報酬を最大化できるように、各部位の動きを選択・学習することで、ひたすら前進できるようになったものです。



AIスティック・フィギュアは転んだり、壁にぶち当たったり、裂け目に落ちたりという失敗を繰り返しながら、より報酬を得られるように試行錯誤して体の使い方を変えることでうまくいく方法を学び取っており、理想的な動きを会得するまでには無数のトライ&エラーが繰り返されています。



単に「前進せよ」という命令が与えられただけで、強化学習によってAIは自分で前進する方法を学び取っているというわけです。



球状の胴体に4本の足がついたクモのようなモデルも存在します。



関節を持った4本の足を見事に使いこなしてジャンプを繰り返して先へ進んでいきます。



もちろん、クモ・フィギュアの動きには物理的な限界があるので乗り越えられない裂け目もあります。



クモ・フィギュアは障害物を乗り越えることも可能です。



頭・胴・腕・足からなる21個の可動パーツを持つヒト型フィギュア。



右手を前方に突きだしたまま、左手は斜め上に突き上げるような不気味な動きでひたすら前進。人間にはなじみのない体の使い方ですが、試行錯誤を繰り返した末に、このコースに最適な走り方としてこの不気味な動きをAIは会得した模様。



壁にぶつかると……



倒れてしまうヒト型フィギュア。やっかいな障害物でも強化学習によって修行を積むうちに、いずれは克服できる可能性があります。



ハードルのように障害物を越える様子は、人間のようでサマになっています。



手をつく動作なども取り入れて、最適な方法をAIは探し出します。



大きな隔たりをジャンプで超える様子。



もちろん限界はありますが、「前進せよ」の指令に従って、AIは解決策を見つけ出そうとします。



左手をぐるぐると回しながら走るヒト型フィギュア。





このAIはさまざまなコースを学習しましたが、まだシーソーのような動きをする障害物を見たことがないとのこと。



体重をかけると傾く地面という、初めて体験する障害物にもかかわらず、果敢に走っていきます。



赤い棒は、外から加えた力を示しています。



押されたり、引っ張ったりしながらも、バランスをとりつつ前進していきます。



目の前に現れた壁に対しては……



体をくねらすようにして、回り込んで回避。





階段もものともせずに駆け上がっていきます。



障害物だらけの多様な環境を与えて、進み具合に応じた報酬関数を設定するだけで、AI自身がタスクを効率的に実行できる「行動」を生み出していくこの研究は、将来的には身の回りの状況を認識して体をうまく使いこなせるロボット技術に応用できそうです。