Command Palette
Search for a command to run...
Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

要約
本稿では、任意の数の視覚入力(カメラポーズが既知である場合も未知である場合も)から空間的に一貫した幾何構造を予測するモデル「Depth Anything 3(DA3)」を提案する。最小限のモデル設計を追求した結果、DA3は以下の2つの重要な知見を得た:(1)アーキテクチャの特殊化を施さずに、単一のシンプルなトランスフォーマー(例えば、ヴァニラ版DINOエンコーダ)をバックボーンとして用いるだけで十分であり、(2)複雑なマルチタスク学習を回避するため、単一の深度・レイ予測ターゲットを採用すれば十分である。教師-生徒学習フレームワークを用いることで、DA3はDepth Anything 2(DA2)と同等の詳細度と汎化性能を達成した。さらに、カメラポーズ推定、任意視点幾何構造推定、視覚レンダリングをカバーする新たな視覚幾何ベンチマークを構築した。このベンチマーク上でDA3はすべてのタスクにおいて新たなSOTA(最先端)を達成し、従来のSOTAモデルVGGTを平均してカメラポーズ精度で44.3%、幾何精度で25.1%上回った。また、単眼深度推定においてもDA2を上回る性能を示した。本研究で開発されたすべてのモデルは、公開の学術データセットのみを用いて訓練されている。