HyperAI

Distill-Any-Depth: Monokularer Tiefenschätzer

1. Einführung in das Tutorial

Bauen

Distill-Any-Depth ist ein innovatives Projekt zur monokularen Tiefenschätzung, das am 28. Februar 2025 gemeinsam von der Zhejiang University of Technology, der Westlake University, der Henan University und der National University of Singapore veröffentlicht wurde. Das Projekt integriert die Vorteile mehrerer Open-Source-Modelle durch den Destillationsalgorithmus und kann mit nur einer kleinen Menge nicht gekennzeichneter Daten eine hochpräzise Tiefenschätzung erreichen und so die aktuelle SOTA-Leistung (State-of-the-Art) verbessern.Destillieren Sie jede Tiefe: Durch Destillation entsteht ein stärkerer monokularer Tiefenschätzer".

Hier sind die wichtigsten Punkte:

  • Rahmenwerk zur Destillation mehrerer Lehrer
    • Durch die zufällige Auswahl mehrerer Lehrermodelle zur Generierung von Pseudo-Labels werden die Vorteile verschiedener Modelle kombiniert, um die Qualität der Pseudo-Labels zu verbessern.
    • Der kontextübergreifende Destillationsmechanismus wird eingeführt, um lokale Details mit globalen Informationen zu kombinieren und so die Robustheit des Modells deutlich zu verbessern.
  • Lokale Normalisierungsstrategie
    • Herkömmliche globale Normalisierung verstärkt das Rauschen. Dieses Projekt schlägt vor, die Normalisierung innerhalb des zugeschnittenen Bereichs durchzuführen, um lokale Details (wie Objektkanten und kleine Lochstrukturen) beizubehalten und die Vorhersagegenauigkeit zu verbessern.
  • Geringe Datenabhängigkeit
    • Es werden lediglich 20.000 unbeschriftete Bilder benötigt (weit weniger als die Millionen von Anmerkungen, die bei herkömmlichen Methoden erforderlich sind), was die Kosten für die Datenanmerkung erheblich reduziert.
  • Verallgemeinerung
    • In Benchmarktests wie NYUv2 (Indoor), KITTI (Outdoor-Fahren) und DIODE (komplexe Beleuchtung) ist die Fehleranzeige (AbsRel) deutlich besser als beim Vorgängermodell.
  • Robustheit
    • Es funktioniert stabil bei transparenten Objekten, reflektierenden Oberflächen und dynamischen Szenen und löst das Fehlerproblem herkömmlicher Modelle unter komplexen Bedingungen.
  • Effizienz
    • Die Inferenzgeschwindigkeit ist mehr als zehnmal schneller als bei diffusionsbasierten Modellen (wie Marigold) und unterstützt Echtzeitanwendungen.

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

2. Anwendungsschritte

Ergebnis 

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{he2025distill,
  title   = {Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator},
  author  = {Xiankang He and Dongyan Guo and Hongji Li and Ruibo Li and Ying Cui and Chi Zhang},
  year    = {2025},
  journal = {arXiv preprint arXiv: 2502.19204}
}