Decoder-Modulation für die Innenraum-Tiefen-Vervollständigung

Die Tiefenkomplettierung ermöglicht die Rekonstruktion einer dichten Tiefenkarte aus Sensormessungen. Aktuelle Methoden sind vorwiegend auf äußerst spärliche Tiefenmessungen von LiDARs in Außenumgebungen zugeschnitten, während für Innenräume hauptsächlich Time-of-Flight-(ToF-) oder Strukturiertes-Licht-Sensoren eingesetzt werden. Diese Sensoren liefern semi-dichte Karten, bei denen einige Regionen dicht gemessen sind, während andere nahezu leer bleiben. Wir stellen ein neues Modell vor, das die statistischen Unterschiede zwischen diesen Regionen berücksichtigt. Unser Hauptbeitrag ist ein neuartiger Dekodierungsmodulationszweig, der in die Encoder-Decoder-Architektur integriert wurde. Der Encoder extrahiert Merkmale aus der verketteten RGB-Bild- und Roh-Tiefeninformation. Unter Verwendung der Maske fehlender Werte als Eingabe steuert der vorgeschlagene Modulationszweig die Dekodierung einer dichten Tiefenkarte aus diesen Merkmalen unterschiedlich für verschiedene Regionen. Dies wird durch die Anpassung der räumlichen Verteilung der Ausgangssignale innerhalb des Dekoders mittels Spatially-Adaptive Denormalization (SPADE)-Blöcke realisiert. Unser zweiter Beitrag ist eine neuartige Trainingsstrategie, die es ermöglicht, auf semi-dichten Sensor-Daten zu trainieren, selbst wenn keine Tiefen-Ground-Truth-Karte verfügbar ist. Unser Modell erreicht auf dem Innenraum-Datensatz Matterport3D Ergebnisse auf dem Stand der Technik. Da das Modell für semi-dichte Eingabetiefen entwickelt wurde, bleibt es auch gegenüber LiDAR-orientierten Ansätzen auf dem KITTI-Datensatz konkurrenzfähig. Unsere Trainingsstrategie verbessert die Vorhersagequalität erheblich, selbst ohne dichte Ground-Truth-Daten, wie anhand des NYUv2-Datensatzes bestätigt wurde.