Googleの研究チームがゲームエンジンとして機能するAIモデル「GameNGen」を発表、入力に合わせて20fpsでDOOMを描画可能で実際のプレイムービーもあり
Googleの研究者4名のチームが、ゲームエンジンとして機能するAIモデル「GameNGen」の論文を発表するとともに実際にFPSゲームのDoomをプレイするムービーを公開しました。
GameNGen
https://gamengen.github.io/
[2408.14837] Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837
GameNGen - YouTube
何もないところから敵や弾が出現したり、壊したオブジェクトが復活したりするなど生成AIっぽさを感じるシーンがあるものの、銃を撃ったら残弾数が減ったり、マップに置いてあるアーマーを取得したらアーマー値が上昇したりするなどちゃんとゲームとして遊べています。
モデルの構造はこんな感じ。基本は強化学習エージェントにゲームをプレイさせて大量の「入力&ゲームプレイ」のデータを集め、Stable Diffusion v1.4をベースに入力とフレームのシーケンスに基づいて条件付けを行うというものです。
トレーニング中にエンコードされたフレームにガウスノイズを追加してあえてコンテキストフレームを破損させることで、モデルは前のフレームでサンプリングされた情報を修正して視覚的な安定性を長期的に維持できるようになったとのこと。
こうしてトレーニングされたGameNGenモデルは「次のフレーム」の予測において画像間の相違度を示すPSNRという指標で非可逆JPEG圧縮と同等の数字である29.4を達成しました。また、GameNGenを使用したプレイムービーと実際のゲームのプレイムービーをそれぞれランダムに3.2秒分だけ切り出し、人間の評価者が「どちらが実際のゲームなのか」を推測したときの正答率は60%にとどまっており、GameNGenが精度の高い映像を生成できていることが分かります。
GameNGenのプロジェクトページには5本のフルゲームプレイムービーがアップロードされているので、気になる人は確認してみてください。