Depth Anything 3: Wiederherstellung des visuellen Raums aus beliebigen Ansichten
Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Abstract
Wir präsentieren Depth Anything 3 (DA3), ein Modell, das räumlich konsistente Geometrie aus einer beliebigen Anzahl visueller Eingaben vorhersagt, unabhängig davon, ob die Kameraposen bekannt sind oder nicht. In der Bemühung um ein minimales Modell ergeben sich zwei zentrale Erkenntnisse: Ein einziger, einfacher Transformer (z. B. ein vanilla DINO-Encoder) reicht aus, um als Backbone zu dienen, ohne dass eine architektonische Spezialisierung erforderlich ist, und ein einziges Tiefen-Strahl-Vorhersageziel entbehrte die Notwendigkeit komplexer Multi-Task-Lernansätze. Durch unser Lehrer-Schüler-Trainingsparadigma erreicht das Modell ein Niveau an Detailgenauigkeit und Generalisierbarkeit, das dem von Depth Anything 2 (DA2) entspricht. Wir etablieren eine neue Benchmark für visuelle Geometrie, die die Schätzung von Kameraposen, die beliebige Ansichtsgeometrie und die visuelle Darstellung abdeckt. Auf dieser Benchmark erreicht DA3 eine neue State-of-the-Art-Leistung in allen Aufgaben und übertrifft die vorherige SOTA-Modellierung VGGT im Durchschnitt um 44,3 % bei der Kameraposenpräzision und um 25,1 % bei der geometrischen Genauigkeit. Zudem übertrifft DA3 DA2 bei der monokularen Tiefenschätzung. Alle Modelle wurden ausschließlich auf öffentlichen akademischen Datensätzen trainiert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.