HyperAIHyperAI
vor 2 Monaten

CSFNet: Ein Netzwerk zur Echtzeit-Fusion von Kosinussimilarität für die semantische Segmentierung von Fahrzeug-Szenen in RGB-X

Danial Qashqai; Emad Mousavian; Shahriar Baradaran Shokouhi; Sattar Mirzakuchaki
CSFNet: Ein Netzwerk zur Echtzeit-Fusion von Kosinussimilarität für die semantische Segmentierung von Fahrzeug-Szenen in RGB-X
Abstract

Semantische Segmentierung, als ein wesentlicher Bestandteil der komplexen visuellen Interpretation, spielt eine grundlegende Rolle in den Visuonsystemen autonomer Fahrzeuge. Neueste Studien haben die Genauigkeit der semantischen Segmentierung erheblich verbessert, indem sie ergänzende Informationen ausnutzen und multimodale Methoden entwickeln. Trotz der Genauigkeitsgewinne leiden multimodale semantische Segmentierungsverfahren unter hoher rechnerischer Komplexität und langsamer Inferenzgeschwindigkeit. Daher ist es eine herausfordernde Aufgabe, multimodale Methoden in Fahrzeuganwendungen umzusetzen. Um dieses Problem zu lösen, schlagen wir das Cosine Similarity Fusion Network (CSFNet) vor, ein Echtzeit-RGB-X-Segmentierungsmodell. Insbesondere entwerfen wir ein Cosine Similarity Attention Fusion Modul (CS-AFM), das die Merkmale von zwei Modalitäten effektiv korrigiert und fusioniert. Das CS-AFM-Modul nutzt die Ähnlichkeit zwischen den Modalitäten, um eine hohe Generalisierungsfähigkeit zu erreichen. Durch die Verbesserung der Fusion von cross-modalen Merkmalen auf niedrigeren Ebenen ermöglicht CS-AFM die Verwendung eines single-branch-Netzes auf höheren Ebenen. Deshalb verwenden wir sowohl dual- als auch single-branch-Architekturen im Encoder, zusammen mit einem effizienten Kontextmodul und einem leichtgewichtigen Decoder für schnelle und genaue Vorhersagen. Um die Effektivität von CSFNet zu überprüfen, verwenden wir die Cityscapes-, MFNet- und ZJU-Datensätze für die RGB-D/T/P-Segmentierung. Die Ergebnisse zeigen, dass CSFNet eine wettbewerbsfähige Genauigkeit bei Stand-of-the-art-Methoden aufweist und gleichzeitig in Bezug auf Geschwindigkeit unter den multimodal segmentierenden Modellen Stand-of-the-art ist. Es erreicht zudem eine hohe Effizienz dank seiner geringen Anzahl an Parametern und seiner niedrigen rechnerischen Komplexität. Der Quellcode für CSFNet wird unter https://github.com/Danial-Qashqai/CSFNet zur Verfügung gestellt.

CSFNet: Ein Netzwerk zur Echtzeit-Fusion von Kosinussimilarität für die semantische Segmentierung von Fahrzeug-Szenen in RGB-X | Neueste Forschungsarbeiten | HyperAI