Google DeepMindの研究チームが、人気ゲームソフト「マインクラフト」でダイヤモンドを採掘することも可能なAIアルゴリズム「DreamerV3」を開発したと発表しました。周囲の環境から特定の知識を得て、その知識を応用できるという点で優れていると開発者は話しています。

Mastering diverse control tasks through world models | Nature

https://www.nature.com/articles/s41586-025-08744-2

AI masters Minecraft: DeepMind program finds diamonds without being taught

https://www.nature.com/articles/d41586-025-01019-w

開発者の1人であるダニヤル・ハフナー氏いわく、DreamerV3は周囲の環境を学習し、将来のシナリオを想像して動作を改善するアルゴリズムになっているとのこと。人間の行動を後から学習させずとも、AI自らが周囲の環境に応じた行動を取れるようになっています。

ハフナー氏は「マインクラフトでダイヤモンドを採掘させたのは後付けです。特にマインクラフトを念頭に置いて開発したわけではありませんが、テスト環境として使うには理想的だと考えたんです」と語りました。

マインクラフトでは、プレイヤーは森、山、砂漠、沼地などさまざまな地形の中を探索することになります。この中で手に入るアイテムの1つが「ダイヤモンド」です。ダイヤモンドを手に入れるためには、木材や石などの素材を集めて道具を作り、その道具を使ってさらに上位の素材を集めてまた道具を作り……といった作業を繰り返さなければなりません。



ハフナー氏らは、ゲーム開始からダイヤモンドを獲得するまで12のマイルストーンを設定し、「1つのマイルストーンに到達するたびにプラス1の報酬を与える」というプロトコルを設定。この設定でDreamerV3に基づいて構築したAIにゲームをプレイさせた上で、プレイヤーが死亡したとき、または3万6000ステップ後(約30分)ごとにゲームをリセットし、AIが1つの特定の動作に慣れるのではなく、報酬を得るための基本的な動作を学ぶように誘導しました。

この設定だと、ダイヤモンドを初めて採掘できるまでにAIは約9日間プレイし続ける必要があるそうです。非常に長い時間がかかっていますが、「未知の環境に置かれたAIが自ら動作を学び、タスクを解決する」という処理ができる点で優れています。

これまでにも、AIにマインクラフトのダイヤモンドを採掘させようとする試みは存在しましたが、人間のプレイ動画を学習させたり、人間が段階的にアシストしたりするのが一般的で、新しい領域の知識をゼロから学習させる形でAIにダイヤモンドを採掘させることはできませんでした。このことから、ハフナー氏はDreamerV3を「人間のデータなしでマインクラフトのダイヤモンドをゼロから見つけられる、世界初のエージェント」と評価しています。





なお、ハフナー氏らはAtariのゲームなどでもDreamerV3を動作させ、それぞれの環境に応じたタスク解決能力を示すことを実証しています。



ハフナー氏は「DreamerV3の能力は、ビデオゲームよりも試行錯誤のコストがはるかに高い、現実世界でのやり取りを学習するロボットにも応用できるでしょう」と語りました。

なお、今後はマインクラフトのボス「エンダードラゴン」を倒すことを目標とするとのことです。