HyperAIHyperAI

Command Palette

Search for a command to run...

AsymFormer: Asymmetrisches Cross-Modales Repräsentationslernen für die Echtzeit-RGB-D-Semantische Segmentierung auf Mobilplattformen

Siqi Du Weixi Wang Renzhong Guo Ruisheng Wang Yibin Tian Shengjun Tang

Zusammenfassung

Das Verständnis von Innenräumen ist für städtische Studien entscheidend. Angesichts der dynamischen Natur von Innenräumen erfordert eine effektive semantische Segmentierung sowohl Echtzeitbetrieb als auch hohe Genauigkeit. Um dies zu bewältigen, schlagen wir AsymFormer vor, ein neues Netzwerk, das die Genauigkeit der Echtzeit-Semantiksegmentierung durch die Nutzung von RGB-D-Multimodalinformationen verbessert, ohne die Netzwerkkomplexität erheblich zu erhöhen. AsymFormer verwendet einen asymmetrischen Backbone zur Extraktion multimodaler Merkmale, wodurch redundante Parameter durch die Optimierung der Verteilung der Rechenressourcen reduziert werden. Zum Füllen asymmetrischer multimodaler Merkmale wird ein Modul zur lokalen Aufmerksamkeitsgesteuerten Merkmalsauswahl (Local Attention-Guided Feature Selection, LAFS) eingesetzt, das selektiv Merkmale aus verschiedenen Modalitäten aufgrund ihrer Abhängigkeiten zusammenführt. Anschließend wird ein Modul zur cross-modalen Aufmerksamkeitsgesteuerten Merkmalskorrelationskodierung (Cross-Modal Attention-Guided Feature Correlation Embedding, CMA) eingeführt, um die Extraktion cross-modaler Darstellungen weiter zu verbessern. AsymFormer zeigt wettbewerbsfähige Ergebnisse mit einem mIoU von 54,1 % auf NYUv2 und 49,1 % auf SUNRGBD. Bemerkenswert ist dabei, dass AsymFormer eine Inferenzgeschwindigkeit von 65 FPS (79 FPS nach Implementierung der gemischten Präzisionsquantisierung) auf RTX3090 erreicht, was belegt, dass AsymFormer eine Balance zwischen hoher Genauigkeit und Effizienz schaffen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AsymFormer: Asymmetrisches Cross-Modales Repräsentationslernen für die Echtzeit-RGB-D-Semantische Segmentierung auf Mobilplattformen | Paper | HyperAI