Bidirektionale, modalityübergreifende Merkmalsweiterleitung mit Trenn- und Aggregations-Gate für RGB-D-Semantische Segmentierung

Tiefeninformation hat sich als nützlicher Hinweis bei der semantischen Segmentierung von RGB-D-Bildern erwiesen, da sie eine geometrische Ergänzung zur RGB-Darstellung liefert. Die meisten bestehenden Ansätze gehen einfach davon aus, dass Tiefenmessungen genau sind und gut mit den RGB-Pixeln ausgerichtet sind, und modellieren das Problem als Kreuzmodalkomponenten-Fusion, um verbesserte Merkmalsdarstellungen zu erzielen und somit genauere Segmentierungen zu erreichen. Dies kann jedoch zu unbefriedigenden Ergebnissen führen, da reale Tiefendaten im Allgemeinen verrauscht sind, was die Genauigkeit verschlechtern kann, je tiefer die Netzwerke werden.In diesem Paper stellen wir einen einheitlichen und effizienten Cross-Modality-Guided-Encoder vor, der nicht nur effektiv die RGB-Merkmalsantworten neu kalibriert, sondern auch über mehrere Stufen hinweg präzise Tiefeninformationen extrahiert und die beiden neu kalibrierten Darstellungen alternierend aggregiert. Der Schlüssel der vorgeschlagenen Architektur ist eine neuartige Separation-and-Aggregation-Gating-Operation, die beide Darstellungen gemeinsam filtert und neu kalibriert, bevor die Kreuzmodalkomponenten-Aggregation erfolgt. Gleichzeitig wird eine bidirektionale Mehrschritt-Propagationsstrategie eingeführt, die einerseits die Informationsweiterleitung und -fusion zwischen den beiden Modalitäten unterstützt, andererseits jedoch ihre Spezifität während des langfristigen Propagationsprozesses bewahrt. Darüber hinaus kann der vorgeschlagene Encoder problemlos in bestehende Encoder-Decoder-Architekturen integriert werden, um deren Leistung bei der RGB-D-Semantiksegmentierung zu steigern. Unser Modell erreicht konsistent bessere Ergebnisse als die derzeitigen State-of-the-Art-Methoden auf sowohl indoor- als auch outdoor-challengierenden Datensätzen. Der Quellcode dieses Werkes ist unter https://charlescxk.github.io/ verfügbar.