AdaBins: Tiefenschätzung mithilfe adaptiver Binns

Wir behandeln das Problem der Schätzung einer hochwertigen dichten Tiefenkarte aus einem einzigen RGB-Eingabebild. Wir beginnen mit einer Baseline-Encoder-Decoder-architektur auf der Grundlage von konvolutionellen neuronalen Netzen und stellen die Frage, wie die globale Verarbeitung von Informationen zur Verbesserung der Gesamtschätzung der Tiefeninformation beitragen kann. Hierzu schlagen wir einen transformerbasierten Architekturblock vor, der den Tiefenbereich in Bins unterteilt, deren Mittelwerte jeweils adaptiv pro Bild geschätzt werden. Die endgültigen Tiefenwerte werden als lineare Kombinationen der Bin-Mittelpunkte berechnet. Wir bezeichnen unseren neuen Baustein als AdaBins. Unsere Ergebnisse zeigen eine entscheidende Verbesserung gegenüber dem Stand der Technik auf mehreren gängigen Tiefendatensätzen in allen Metriken. Wir validieren zudem die Wirksamkeit des vorgeschlagenen Blocks mittels einer Ablationsstudie und stellen den Quellcode sowie die entsprechenden vortrainierten Gewichte des neuen State-of-the-Art-Modells bereit.