Rauminformationsgesteuertes adaptives kontextbewusstes Netzwerk für eine effiziente RGB-D-Semantische Segmentierung

Effiziente RGB-D-Semantiksegmentierung hat in mobilen Robotern erhebliche Aufmerksamkeit erfahren, da sie eine entscheidende Rolle bei der Analyse und Erkennung von Umweltinformationen spielt. Laut vorangegangenen Studien kann Tiefeninformation geometrische Beziehungen zwischen Objekten und Szenen liefern, während echte Tiefendaten jedoch typischerweise durch Rauschen gekennzeichnet sind. Um negativen Einflüssen auf die Segmentierungsgenauigkeit und die Berechnungskomplexität entgegenzuwirken, ist die Entwicklung eines effizienten Rahmens zur Nutzung von Kreuzmodalkorrelationen und komplementären Hinweisen notwendig. In diesem Artikel stellen wir ein effizientes, leichtgewichtiges Encoder-Decoder-Netzwerk vor, das die Anzahl der Berechnungsparameter reduziert und gleichzeitig die Robustheit des Algorithmus gewährleistet. In Kombination mit Kanal- und Raumfusion-Aufmerksamkeitsmodulen erfasst unser Netzwerk effektiv mehrstufige RGB-D-Features. Zudem wird ein global geführter lokaler Affinitätskontextmodul vorgeschlagen, um ausreichend hochwertige Kontextinformationen zu erhalten. Der Decoder nutzt eine leichtgewichtige Residual-Einheit, die kurze und lange Distanzinformationen kombiniert, wobei nur wenige redundante Berechnungen erforderlich sind. Experimentelle Ergebnisse auf den Datensätzen NYUv2, SUN RGB-D und Cityscapes zeigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren ein besseres Gleichgewicht zwischen Segmentierungsgenauigkeit, Inferenzzeit und Anzahl der Parameter erreicht. Der Quellcode ist unter https://github.com/MVME-HBUT/SGACNet verfügbar.