vor 2 Monaten

AsymFormer: Asymmetrisches Cross-Modales Repräsentationslernen für die Echtzeit-RGB-D-Semantische Segmentierung auf Mobilplattformen

Siqi Du; Weixi Wang; Renzhong Guo; Ruisheng Wang; Yibin Tian; Shengjun Tang

Abstract

Das Verständnis von Innenräumen ist für städtische Studien entscheidend. Angesichts der dynamischen Natur von Innenräumen erfordert eine effektive semantische Segmentierung sowohl Echtzeitbetrieb als auch hohe Genauigkeit. Um dies zu bewältigen, schlagen wir AsymFormer vor, ein neues Netzwerk, das die Genauigkeit der Echtzeit-Semantiksegmentierung durch die Nutzung von RGB-D-Multimodalinformationen verbessert, ohne die Netzwerkkomplexität erheblich zu erhöhen. AsymFormer verwendet einen asymmetrischen Backbone zur Extraktion multimodaler Merkmale, wodurch redundante Parameter durch die Optimierung der Verteilung der Rechenressourcen reduziert werden. Zum Füllen asymmetrischer multimodaler Merkmale wird ein Modul zur lokalen Aufmerksamkeitsgesteuerten Merkmalsauswahl (Local Attention-Guided Feature Selection, LAFS) eingesetzt, das selektiv Merkmale aus verschiedenen Modalitäten aufgrund ihrer Abhängigkeiten zusammenführt. Anschließend wird ein Modul zur cross-modalen Aufmerksamkeitsgesteuerten Merkmalskorrelationskodierung (Cross-Modal Attention-Guided Feature Correlation Embedding, CMA) eingeführt, um die Extraktion cross-modaler Darstellungen weiter zu verbessern. AsymFormer zeigt wettbewerbsfähige Ergebnisse mit einem mIoU von 54,1 % auf NYUv2 und 49,1 % auf SUNRGBD. Bemerkenswert ist dabei, dass AsymFormer eine Inferenzgeschwindigkeit von 65 FPS (79 FPS nach Implementierung der gemischten Präzisionsquantisierung) auf RTX3090 erreicht, was belegt, dass AsymFormer eine Balance zwischen hoher Genauigkeit und Effizienz schaffen kann.