HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Tagen

Depth Anything 3: Wiederherstellung des visuellen Raums aus beliebigen Ansichten

Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Depth Anything 3: Wiederherstellung des visuellen Raums aus beliebigen Ansichten

Abstract

Wir präsentieren Depth Anything 3 (DA3), ein Modell, das räumlich konsistente Geometrie aus einer beliebigen Anzahl visueller Eingaben vorhersagt, unabhängig davon, ob die Kameraposen bekannt sind oder nicht. In der Bemühung um ein minimales Modell ergeben sich zwei zentrale Erkenntnisse: Ein einziger, einfacher Transformer (z. B. ein vanilla DINO-Encoder) reicht aus, um als Backbone zu dienen, ohne dass eine architektonische Spezialisierung erforderlich ist, und ein einziges Tiefen-Strahl-Vorhersageziel entbehrte die Notwendigkeit komplexer Multi-Task-Lernansätze. Durch unser Lehrer-Schüler-Trainingsparadigma erreicht das Modell ein Niveau an Detailgenauigkeit und Generalisierbarkeit, das dem von Depth Anything 2 (DA2) entspricht. Wir etablieren eine neue Benchmark für visuelle Geometrie, die die Schätzung von Kameraposen, die beliebige Ansichtsgeometrie und die visuelle Darstellung abdeckt. Auf dieser Benchmark erreicht DA3 eine neue State-of-the-Art-Leistung in allen Aufgaben und übertrifft die vorherige SOTA-Modellierung VGGT im Durchschnitt um 44,3 % bei der Kameraposenpräzision und um 25,1 % bei der geometrischen Genauigkeit. Zudem übertrifft DA3 DA2 bei der monokularen Tiefenschätzung. Alle Modelle wurden ausschließlich auf öffentlichen akademischen Datensätzen trainiert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Depth Anything 3: Wiederherstellung des visuellen Raums aus beliebigen Ansichten | Forschungsarbeiten | HyperAI