動画を「見て」学習するアーキテクチャ「V-JEPA」をMetaが開発
動画内のマスキングを施された部分や欠落した部分を予測することで学習するアーキテクチャ「V-JEPA」をMetaが開発しました。このアーキテクチャをもって何らかの動画を生成することは不可能ですが、新たなモデルを開発するためのアプローチに利用できる可能性があるとされています。
Revisiting Feature Prediction for Learning Visual Representations from Video | Research - AI at Meta
V-JEPAは映像の中で何が起こっているのかを学習し、予測する手法であり、特にオブジェクトの細かい相互作用や時間の経過とともに起こる詳細な相互作用を区別することを得意としています。例えば誰かがペンを置いているのか、ペンを拾っているのか、ペンを置くふりをするのかといった動作がマスキングされている映像などで「実際はどんな動作なのか」を推測する場合、V-JEPAは既存の手法と比較して非常に優れているとのこと。
V-JEPAに基づく学習方法は、大部分をマスキングした映像を見せて、見えない部分を埋めるよう求めるというもの。これにより機械学習モデルは時間的・空間的に変化する映像を推測する方法を学習します。
マスキングされた部分や欠落した部分をすべて埋めようとする生成的アプローチとは異なり、V-JEPAは予測不可能な情報を捨てる柔軟性を備えており、これにより学習とサンプルの効率が1.5倍から6倍改善されるとのこと。たとえば映像に木が映っていたとしても、V-JEPAに基づくと個々の葉の細かな動きは予測せず切り捨てる可能性があります。こうした特徴が、動画を生成する学習モデルを開発するのに役立てられる可能性があるとMetaは説明しています。
また、V-JEPAは特定のタスクに特化したモデルではなく、汎用(はんよう)性を備えた「凍結評価」とよばれる学習方法を得意とする最初の動画用モデルでもあるとのこと。Metaは今より長い映像での予測を可能にすることと、現状の動画のみを対象とした性能を広げてマルチモーダルなアプローチを取り入れることを目指しています。V-JEPAは、CC BY-NCライセンスの下で公開されています。
GitHub - facebookresearch/jepa: PyTorch code and models for V-JEPA self-supervised learning from video.
https://github.com/facebookresearch/jepa