ECoDepth: Effektive Bedingung von Diffusionsmodellen für die monokulare Tiefenschätzung

Ohne Parallaxinformationen verlässt sich ein lernbasierter Ansatz zur Tiefenschätzung aus einer einzigen Bildquelle (Single Image Depth Estimation, SIDE) stark auf Schattierungs- und kontextuelle Hinweise im Bild. Obwohl diese Vereinfachung attraktiv ist, erfordert die Entwicklung solcher Modelle die Nutzung großer und vielfältiger Datensätze, die schwer zu erfassen sind. Es wurde gezeigt, dass die Verwendung von Embeddings vortrainierter grundlegender Modelle, wie beispielsweise CLIP, die Transferleistung im Zero-Shot-Bereich in mehreren Anwendungen verbessert. Inspiriert davon untersuchen wir in unserer Arbeit die Nutzung globaler Bildvorwissen, die aus einem vortrainierten ViT-Modell generiert werden, um detailliertere kontextuelle Informationen bereitzustellen. Wir argumentieren, dass der Embedding-Vektor eines ViT-Modells, das auf einer großen Datenmenge vortrainiert wurde, für die SIDE relevantere Informationen enthält als der übliche Ansatz, zunächst pseudobildliche Beschreibungen zu generieren und anschließend Text-Embeddings basierend auf CLIP zu nutzen. Auf dieser Grundlage schlagen wir ein neues SIDE-Modell vor, das auf einem Diffusions-Backbone basiert und durch ViT-Embeddings konditioniert ist. Unser vorgeschlagenes Design erreicht eine neue State-of-the-Art (SOTA) auf dem NYUv2-Datensatz mit einem Abs Rel-Fehler von 0,059 (14 % Verbesserung gegenüber dem aktuellen SOTA, VPD mit 0,069) und einem Sq Rel-Fehler von 0,139 (2 % Verbesserung gegenüber dem aktuellen SOTA, GEDepth mit 0,142) auf dem KITTI-Datensatz. Für Zero-Shot-Transfer mit einem auf NYUv2 trainierten Modell erreichen wir im Mittel eine relative Verbesserung von (20 %, 23 %, 81 %, 25 %) gegenüber NeWCRFs auf den Datensätzen (Sun-RGBD, iBims1, DIODE, HyperSim), verglichen mit (16 %, 18 %, 45 %, 9 %) durch ZoeDepth. Die Projektseite ist unter https://ecodepth-iitd.github.io verfügbar.