HyperAIHyperAI
vor 13 Tagen

Distill Any Depth: Die Distillation erzeugt einen stärkeren monokularen Tiefenschätzer

Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
Distill Any Depth: Die Distillation erzeugt einen stärkeren monokularen Tiefenschätzer
Abstract

Monokulare Tiefenschätzung (MDE) zielt darauf ab, die Szenentiefe aus einem einzigen RGB-Bild vorherzusagen und spielt eine entscheidende Rolle bei der 3D-Szenenverstehbarkeit. In jüngster Zeit wurden zero-shot-MDE-Ansätze durch die Nutzung normalisierter Tiefendarstellungen und lernbasierter Distillationstechniken weiterentwickelt, um die Generalisierbarkeit über diverse Szenen hinweg zu verbessern. Allerdings können derzeitige Methoden zur Tiefennormalisierung für die Distillation, die auf globaler Normalisierung basieren, geräuschbehaftete Pseudolabels verstärken und somit die Wirksamkeit der Distillation verringern. In diesem Artikel analysieren wir systematisch den Einfluss verschiedener Tiefennormalisierungsstrategien auf die Pseudolabel-Distillation. Aufgrund unserer Erkenntnisse stellen wir Cross-Context-Distillation vor, die globale und lokale Tiefeninformationen integriert, um die Qualität der Pseudolabels zu erhöhen. Zudem führen wir einen Multi-Teacher-Distillation-Rahmen ein, der die komplementären Stärken verschiedener Tiefenschätzungsmethoden nutzt und somit robustere und genauere Tiefenvorhersagen ermöglicht. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass unser Ansatz sowohl quantitativ als auch qualitativ signifikant gegenüber den aktuellen State-of-the-Art-Methoden übertrifft.