LocalBins: Verbesserung der Tiefenschätzung durch Lernen lokaler Verteilungen

Wir schlagen eine neuartige Architektur für die Tiefenschätzung aus einer einzigen Bildaufnahme vor. Die Architektur basiert auf der populären Encoder-Decoder-Architektur, die häufig als Ausgangspunkt für alle Aufgaben der dichten Regression verwendet wird. Wir bauen auf AdaBins auf, das eine globale Verteilung von Tiefenwerten für das Eingabebild schätzt, und erweitern die Architektur in zweifacher Hinsicht. Erstens schätzen wir anstelle globaler Tiefenverteilungen Tiefenverteilungen lokaler Nachbarschaften an jedem Pixel. Zweitens integrieren wir nicht nur die letzten Schichten des Decoders, sondern alle Schichten des Decoders in die Vorhersage. Wir bezeichnen diese neue Architektur als LocalBins. Unsere Ergebnisse zeigen eine deutliche Verbesserung gegenüber dem Stand der Technik in allen Metriken auf dem NYU-Depth V2-Datensatz. Der Quellcode und vortrainierte Modelle werden öffentlich zugänglich gemacht.