Command Palette

Search for a command to run...

10日前

Depth Anything 3:あらゆる視点から視覚空間を回復する

Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Depth Anything 3:あらゆる視点から視覚空間を回復する

要約

本稿では、任意の数の視覚入力(カメラポーズが既知である場合も未知である場合も)から空間的に一貫した幾何構造を予測するモデル「Depth Anything 3(DA3)」を提案する。最小限のモデル設計を追求した結果、DA3は以下の2つの重要な知見を得た:(1)アーキテクチャの特殊化を施さずに、単一のシンプルなトランスフォーマー(例えば、ヴァニラ版DINOエンコーダ)をバックボーンとして用いるだけで十分であり、(2)複雑なマルチタスク学習を回避するため、単一の深度・レイ予測ターゲットを採用すれば十分である。教師-生徒学習フレームワークを用いることで、DA3はDepth Anything 2(DA2)と同等の詳細度と汎化性能を達成した。さらに、カメラポーズ推定、任意視点幾何構造推定、視覚レンダリングをカバーする新たな視覚幾何ベンチマークを構築した。このベンチマーク上でDA3はすべてのタスクにおいて新たなSOTA(最先端)を達成し、従来のSOTAモデルVGGTを平均してカメラポーズ精度で44.3%、幾何精度で25.1%上回った。また、単眼深度推定においてもDA2を上回る性能を示した。本研究で開発されたすべてのモデルは、公開の学術データセットのみを用いて訓練されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Depth Anything 3:あらゆる視点から視覚空間を回復する | 論文 | HyperAI超神経