スーパーマリオのプレイ映像を学習してテキストからゲーム動画を自動生成するAIモデル「MarioVGG」
by Carles Escrig i Royo
AI開発スタートアップのVirtuals Protocolが、テキストを入力することで「スーパーマリオブラザーズ」のゲームプレイ映像を生成できるAIモデル「MarioVGG」を開発したと発表しました。MarioVGGは約73万フレームに及ぶ「スーパーマリオブラザーズ」のゲームプレイ動画で学習しています。
MarioVGG
https://virtual-protocol.github.io/mario-videogamegen/
https://arstechnica.com/ai/2024/09/new-ai-model-learns-how-to-simulate-super-mario-bros-from-video-footage/
Virtuals Protocolの研究チームは、公開されている「スーパーマリオブラザーズ」のゲームプレイデータセットでモデルの学習を行いました。このデータセットにはのべ280ステージものプレイデータが含まれており、73万7000フレーム以上の画像とそれに対応する入力データが整理されています。ただし、今回はスーパーマリオブラザーズの最初のステージである「World 1−1」のデータは評価用として学習から除外されています。
データの前処理段階では、各35フレームのチャンクに分割され、モデルが様々な入力に対する即時の結果を学習できるようにしました。簡略化のため、研究チームは「右に走る」と「右に走ってジャンプする」という2つの入力に焦点を当てています。
モデルの訓練には、NVIDIA RTX 4090 GPUを1台使用し、約48時間かかったとのこと。訓練後、MarioVGGは標準的な畳み込みとノイズ除去プロセスを使用し、静止画の初期フレームとテキスト入力から新しいフレームを生成することに成功しました。
ただし、プレイデータのフレーム解像度は256×240ピクセルでしたが、生成された映像は64×48ピクセル、またおよそ再生速度が5倍になっているとのこと。そのため、実際のゲームプレイ動画と比較するとかなり粗い映像となっています。以下のGIFアニメーションは、MarioVGGが実際に生成した映像の一部です。
研究チームによると、記事作成時点でMarioVGGの映像生成には、6フレームの映像で6秒かかるとのこと。「1フレームにつき1秒」という生成速度ではリアルタイムの映像生成にはほど遠いため、研究チームは「長期的には、この技術がゲーム開発のプロセスを大きく変える可能性があるが、既存のゲームエンジンを完全に置き換えるまでの道のりは長い」と論じました。
また、研究チームは今回の研究で最も注目すべき点として、「MarioVGGが明示的なプログラミングなしにゲームの物理法則や相互作用のルールを学習できたこと」を挙げています。
例えば、MarioVGGはマリオが崖から落ちる際の重力の動作を再現することができたとのこと。また、「障害物に近づいた際にマリオの前進を止める」という基本的な衝突検出も学習しています。これは、AIが動画データから物理法則を抽出し、それを新しい状況に適用できることを示しています。
さらに、MarioVGGが環境の「生成」も行っていることも興味深いポイントだ、と研究チーム。MarioVGGが自動的に生成した地形や障害物などの要素は、オリジナルのゲームの見た目と一貫性を保っています。つまり、MarioVGGは単にプレイヤーの動きを模倣しているだけでなく、ゲームの世界そのものを作り出すことに成功していると考えることができ、AIを使用した手続き型コンテンツ生成の新しい形態と見なすことができると研究チームは述べ、より多様なデータでの学習、モデルの最適化、より高度な制御機能の実装などを今後の課題として挙げました。