PENet: Hin zu präziser und effizienter bildgestützter Tiefenergänzung

Die bildgeführte Tiefenkompletierung ist die Aufgabe, aus einer spärlichen Tiefenkarte und einem hochwertigen Bild eine dichte Tiefenkarte zu generieren. Bei dieser Aufgabe spielt die Fusion der Farb- und Tiefenmodalitäten eine entscheidende Rolle für eine gute Leistung. In dieser Arbeit wird ein zweigeteilter Backbone vorgestellt, der aus einem farbdominanten Zweig und einem tiefendominanten Zweig besteht, um die beiden Modalitäten umfassend auszunutzen und zu fusionieren. Genauer gesagt, verarbeitet ein Zweig ein Farbbild und eine spärliche Tiefenkarte, um eine dichte Tiefenkarte vorherzusagen. Der andere Zweig nimmt die spärliche Tiefenkarte sowie die zuvor vorhergesagte Tiefenkarte als Eingaben und liefert ebenfalls eine dichte Tiefenkarte. Die von den beiden Zweigen vorhergesagten Tiefenkarten ergänzen sich wechselseitig und werden daher adaptiv fusioniert. Zudem wird eine einfache geometrische konvolutionale Schicht vorgeschlagen, um 3D-geometrische Hinweise zu kodieren. Der durch geometrische Kodierung verbesserte Backbone führt die Fusion verschiedener Modalitäten in mehreren Stufen durch, was zu hervorragenden Ergebnissen bei der Tiefenkompletierung führt. Außerdem wird ein erweiterter und beschleunigter CSPN++ implementiert, um die fusionierte Tiefenkarte effizient zu verfeinern. Das vorgeschlagene Gesamtmodell erreichte bei der Einreichung den ersten Platz in der Online-Rangliste der KITTI-Tiefenkompletierung. Zudem ist es deutlich schneller in der Inferenz als die meisten der führenden Methoden. Der Quellcode dieser Arbeit ist unter https://github.com/JUGGHM/PENet_ICRA2021 verfügbar.