RigNet: Repetitive Image Guided Network für Depth Completion

Die Tiefenkompletierung befasst sich mit der Aufgabe, dichte Tiefenkarten aus spärlichen Tiefeninformationen zu rekonstruieren, wobei Farbbilder häufig zur Unterstützung dieses Prozesses herangezogen werden. In jüngster Zeit konzentrieren sich die Ansätze hauptsächlich auf bildgeführte Lernframeworks zur Vorhersage dichter Tiefen. Dennoch behindern unscharfe Bildführung und undeutliche Strukturen in den Tiefenwerten weiterhin die Leistungsfähigkeit solcher bildgeführter Frameworks. Um diese Probleme anzugehen, erforschen wir in unserem bildgeführten Netzwerk eine repetitive Architektur, um die Tiefenwerte schrittweise und ausreichend zu rekonstruieren. Konkret wird diese Wiederholung sowohl im Bildführungszweig als auch im Tiefengenerierungs-Zweig umgesetzt. Im ersten Zweig entwerfen wir ein wiederholtes Hourglass-Netzwerk, um diskriminative Bildmerkmale komplexer Umgebungen zu extrahieren, die eine kraftvolle kontextuelle Anleitung für die Tiefenabschätzung liefern. Im zweiten Zweig führen wir eine wiederholte Führungseinheit basierend auf dynamischer Faltung ein, wobei eine effiziente Faltungsfaktorisierung vorgeschlagen wird, um sowohl die Komplexität zu reduzieren als auch hochfrequente Strukturen schrittweise zu modellieren. Ausführliche Experimente zeigen, dass unsere Methode auf dem KITTI-Benchmark und der NYUv2-Datenbank überlegene oder wettbewerbsfähige Ergebnisse erzielt.