Googleの研究者4名のチームが、ゲームエンジンとして機能するAIモデル「GameNGen」の論文を発表するとともに実際にFPSゲームのDoomをプレイするムービーを公開しました。

GameNGen

https://gamengen.github.io/



[2408.14837] Diffusion Models Are Real-Time Game Engines

https://arxiv.org/abs/2408.14837

研究チームによると、GameNGenは単一のTPUでDoomをシミュレートでき、毎秒20フレーム以上のフレームレートを達成したとのこと。プレイの様子は以下のムービーで確認できます。

GameNGen - YouTube

何もないところから敵や弾が出現したり、壊したオブジェクトが復活したりするなど生成AIっぽさを感じるシーンがあるものの、銃を撃ったら残弾数が減ったり、マップに置いてあるアーマーを取得したらアーマー値が上昇したりするなどちゃんとゲームとして遊べています。



モデルの構造はこんな感じ。基本は強化学習エージェントにゲームをプレイさせて大量の「入力&ゲームプレイ」のデータを集め、Stable Diffusion v1.4をベースに入力とフレームのシーケンスに基づいて条件付けを行うというものです。



トレーニング中にエンコードされたフレームにガウスノイズを追加してあえてコンテキストフレームを破損させることで、モデルは前のフレームでサンプリングされた情報を修正して視覚的な安定性を長期的に維持できるようになったとのこと。

こうしてトレーニングされたGameNGenモデルは「次のフレーム」の予測において画像間の相違度を示すPSNRという指標で非可逆JPEG圧縮と同等の数字である29.4を達成しました。また、GameNGenを使用したプレイムービーと実際のゲームのプレイムービーをそれぞれランダムに3.2秒分だけ切り出し、人間の評価者が「どちらが実際のゲームなのか」を推測したときの正答率は60%にとどまっており、GameNGenが精度の高い映像を生成できていることが分かります。

GameNGenのプロジェクトページには5本のフルゲームプレイムービーがアップロードされているので、気になる人は確認してみてください。