HyperAIHyperAI
vor 16 Tagen

SemAttNet: Hin zu einer auf Aufmerksamkeit basierenden semantisch bewussten Führung der Tiefenkompletierung

Danish Nazir, Marcus Liwicki, Didier Stricker, Muhammad Zeshan Afzal
SemAttNet: Hin zu einer auf Aufmerksamkeit basierenden semantisch bewussten Führung der Tiefenkompletierung
Abstract

Die Tiefenkompletierung beinhaltet die Rekonstruktion einer dichten Tiefenkarte aus einer spärlichen Tiefenkarte und einem RGB-Bild. Neuere Ansätze konzentrieren sich darauf, Farbbilder als Leitbilder zu nutzen, um die Tiefe an ungültigen Pixeln zu rekonstruieren. Allerdings reichen Farbbilder allein nicht aus, um die notwendige semantische Verständnis der Szene bereitzustellen. Dadurch leidet die Aufgabe der Tiefenkompletierung unter plötzlichen Helligkeitsänderungen in den RGB-Bildern (z. B. Schatten). In diesem Artikel stellen wir einen neuartigen dreigeteilten Backbone vor, der aus einer farbgesteuerten, einer semantikgesteuerten und einer tiefengesteuerten Verzweigung besteht. Insbesondere verarbeitet die farbgesteuerte Verzweigung eine spärliche Tiefenkarte und ein RGB-Bild und generiert eine farbgesteuerte Tiefenkarte, die Farbcues (z. B. Objektkanten) der Szene enthält. Die vorhergesagte dichte Tiefenkarte der farbgesteuerten Verzweigung zusammen mit dem semantischen Bild und der spärlichen Tiefenkarte wird als Eingabe für die semantikgesteuerte Verzweigung verwendet, um die semantikgesteuerte Tiefenkarte zu schätzen. Die tiefengesteuerte Verzweigung nimmt die spärliche, farbgesteuerte und semantikgesteuerte Tiefenkarte auf, um eine dichte Tiefenkarte zu generieren. Die farbgesteuerte, semantikgesteuerte und geführte Tiefenkarte werden adaptiv fusioniert, um das Ergebnis unseres vorgeschlagenen dreigeteilten Backbones zu erzeugen. Zudem schlagen wir vor, einen semantikbewussten, mehrmodalen Aufmerksamkeits-basierten Fusionsblock (SAMMAFB) einzusetzen, um Merkmale zwischen allen drei Verzweigungen zu fusionieren. Zusätzlich verwenden wir CSPN++ mit atrous-Convolutionen, um die dichte Tiefenkarte, die durch unseren dreigeteilten Backbone erzeugt wurde, weiter zu verfeinern. Umfangreiche Experimente zeigen, dass unser Modell zum Zeitpunkt der Einreichung die Stand-of-the-Art-Leistung im KITTI-Tiefenkompletierungsbenchmark erreicht.