HyperAIHyperAI
vor 16 Tagen

S$^2$-FPN: Skalenangepasste Streifen-Attention-gesteuerte Merkmalspyramiden-Netzwerk für die Echtzeit-Semantische Segmentierung

Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse Munea, Xin Hong, Abuzar B. M. Adam, Amina Benabid
S$^2$-FPN: Skalenangepasste Streifen-Attention-gesteuerte Merkmalspyramiden-Netzwerk für die Echtzeit-Semantische Segmentierung
Abstract

Moderne hochleistungsfähige Methoden zur semantischen Segmentierung setzen einen leistungsstarken Backbone und dilatierte Konvolutionen ein, um relevante Merkmale zu extrahieren. Obwohl die Extraktion von Merkmalen, die sowohl kontextuelle als auch semantische Informationen enthalten, für Segmentierungsaufgaben entscheidend ist, führt dies bei Echtzeitanwendungen zu einem hohen Speicherverbrauch und einem hohen Rechenaufwand. In dieser Arbeit präsentieren wir ein neues Modell, das ein besseres Gleichgewicht zwischen Genauigkeit und Geschwindigkeit für die Echtzeit-Segmentierung von Straßenzenen erreicht. Konkret schlagen wir ein leichtgewichtiges Modell namens Scale-aware Strip Attention Guided Feature Pyramid Network (S$^2$-FPN) vor. Unser Netzwerk besteht aus drei Hauptmodulen: dem Attention Pyramid Fusion (APF)-Modul, dem Scale-aware Strip Attention Modul (SSAM) sowie dem Global Feature Upsample (GFU)-Modul. Das APF-Modul nutzt Aufmerksamkeitsmechanismen, um diskriminative mehrskalige Merkmale zu lernen und die semantische Lücke zwischen verschiedenen Ebenen zu schließen. Dabei verwendet APF skalenbewusste Aufmerksamkeit, um globale Kontextinformationen durch vertikale Streifenoperationen zu kodieren und langreichweitige Abhängigkeiten zu modellieren, was hilft, Pixel mit ähnlichen semantischen Etiketten miteinander zu verknüpfen. Zudem setzt APF einen kanalweisen Neugewichtungsblock (CRB) ein, um die Kanalmerkmale zu verstärken. Schließlich nutzt der Decoder von S$^2$-FPN das GFU-Modul, um Merkmale aus APF und dem Encoder zu fusionieren. Umfangreiche Experimente wurden auf zwei anspruchsvollen Benchmarks für semantische Segmentierung durchgeführt, die zeigen, dass unser Ansatz bei unterschiedlichen Modellkonfigurationen ein besseres Verhältnis von Genauigkeit zu Geschwindigkeit erreicht. Die vorgeschlagenen Modelle erzielen auf dem Cityscapes-Datensatz Ergebnisse von 76,2 % mIoU bei 87,3 FPS, 77,4 % mIoU bei 67 FPS sowie 77,8 % mIoU bei 30,5 FPS, und auf dem CamVid-Datensatz 69,6 % mIoU, 71,0 % mIoU sowie 74,2 % mIoU. Der Quellcode für diese Arbeit wird unter \url{https://github.com/mohamedac29/S2-FPN} verfügbar gemacht.

S$^2$-FPN: Skalenangepasste Streifen-Attention-gesteuerte Merkmalspyramiden-Netzwerk für die Echtzeit-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI