人間と見分けが付かないほど自然な文章を書けるAIやソースコードの続きを自動で記述AIなど驚異的な能力を持つAIを数多く開発してきたOpenAIが「マインクラフトでダイアモンド製アイテムを10分以内にクラフトできるAI」を発表しました。発表されたAIには「Video PreTraining (VPT)」と呼ばれるムービーを用いた機械学習を効率化する手法が採用されています。

Learning to Play Minecraft with Video PreTraining (VPT)

https://openai.com/blog/vpt/

マインクラフトは石や鉄などの素材を収集してアイテムをクラフトできます。ダイヤモンド製のアイテムを作成する際には「ダイヤモンド鉱石を採掘するためのアイテムをクラフト」「ダイヤモンド鉱石を求めて地下深くまで掘り進める」といった操作が必要で、熟練プレイヤーでも初期状態からダイヤモンド製アイテムをクラフトするまでには数十分の時間が必要です。OpenAIはネット上に存在する膨大な数のマインクラフトプレイムービーをAIに学習させ、約10分でダイヤモンド製アイテムをクラフトできるAIを開発しました。

AIの学習にはVPTと呼ばれる手法が用いられました。一般的にAIの学習には人間が手動でラベル付けした大量のデータが用いられます。しかし、今回は「どのキーを押したか」「マウスをどう動かしたか」というラベルが付いた比較的短時間のマインクラフトプレイムービーを用意してAIに学習させて「キーやマウスとプレイムービーの対応」を学習させたうえで、ラベルを付与していない膨大な数のプレイムービーを学習させました。



学習完了後のAIは未調整の時点で「木を攻撃して原木を入手→原木を木材に加工→木材から作業台をクラフト」というプレイが可能となっていました。さらに「水中を泳ぐ」「動物を狩る」「食べ物を食べる」「ジャンプしながら素材を積み重ねて上方に移動する」といった動作も可能だったとのこと。



その後、最初に学習させるラベル付きデータの調整などを行ってAIの動作を最適化し、ダイヤモンド製アイテムの作成に必要な「鉄製ツルハシの作成」「ダイヤモンド鉱石の発見」といったタスクに報酬を設定してAIの学習を進めました。



その結果、ゲーム開始から約10分でダイヤモンド製のヘルメットやツルハシを作成できるAIが完成しました。マインクラフトでダイヤモンド製アイテムを作成する過程はキーボードとマウスの操作によって成り立っています。このため、OpenAIは今回のAI学習に用いたノウハウが一般的なコンピューター操作を担うAIの学習にも応用できると述べています。



なお、AIがダイヤモンド製アイテムを作成する様子は、以下のリンク先の最下部に配置されたムービーで確認できます。

Learning to Play Minecraft with Video PreTraining (VPT)

https://openai.com/blog/vpt/