AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる
機械が深度(奥行き)を認識する方法を大幅に進歩させるモデル「Depth Pro」をAppleのAI研究チームがリリースしました。他の方法では見落とされがちな「髪の毛」や「草木」といった細かいディテールを持った物体の深度も正確に認識可能で、高解像度の深度マップをわずか0.3秒で生成することが可能な点が特徴。自動運転車などリアルタイムで深度を推定するシステムに応用可能だと期待されています。
https://arxiv.org/abs/2410.02073
GitHub - apple/ml-depth-pro: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second.
https://github.com/apple/ml-depth-pro
Apple releases Depth Pro, an AI model that rewrites the rules of 3D vision | VentureBeat
https://venturebeat.com/ai/apple-releases-depth-pro-an-ai-model-that-rewrites-the-rules-of-3d-vision/
Depth Proは単一の画像からでも高解像度の深度マップを作成できるモデルです。このモデルは動物の毛や鳥かごのワイヤーのような細かいディテールのキャプチャに優れていて、2.25メガピクセル(225万ピクセル)の深度マップをわずか0.3秒で生成することができます。
一般的に、深度マップを作成するには複数の画像や焦点距離のようなメタデータが別途必要で、単一の画像で深度を推定するのは困難でした。
Depth Proと、その他の深度推定モデル(Marigold、Depth Anything v2、Metric3D v2)の精度を比較した画像が以下の通り。他のモデルでは捉えきれない動物の毛などのディテールをDepth Proは漏らさず捉えています。
風車やシマウマの画像を分析したものが以下。他モデルはシマウマの画像で体と背景が同化している様子が見られますが、Depth Proは鮮明に捉えています。
研究者いわく、Depth Proは相対的な深度と絶対的な深度の両方を推定する「メトリック深度」という能力を備えているのが特徴とのこと。この能力により、仮想オブジェクトを物理空間内の正確な位置に配置する必要がある拡張現実(AR)のようなアプリケーションに不可欠な「実世界の測定値」を提供できるそうです。
また、カメラで得られたメタデータを必要とせず、画像だけで深度マップを生成できるのも特徴の1つ。Depth Proを応用すると、スマートフォンのカメラを部屋に向けるだけで家具がフィットするかどうかを確かめたり、自動運転車にリアルタイムで深度を推定させることで安全性を向上させたりすることができるようになると期待されています。
Depth Proのコードとモデルの重みはGitHubで公開されています。研究チームは、ロボット工学や製造、ヘルスケアなどの分野でのDepth Proの可能性を見いだすことを奨励しているとのことです。