vor 2 Monaten

CMX: Cross-Modal Fusion für die RGB-X-Semantische Segmentierung mit Transformers

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer

Abstract

Die Szenenverstehens auf der Grundlage von Bildsegmentierung ist eine entscheidende Komponente autonomer Fahrzeuge. Die pixelweise semantische Segmentierung von RGB-Bildern kann durch die Nutzung ergänzender Merkmale aus der zusätzlichen Modalität (X-Modalität) verbessert werden. Allerdings bleibt das Abdecken einer breiten Palette von Sensoren mit einem modalitätsunabhängigen Modell aufgrund der Variationen in den Sensorcharakteristiken zwischen verschiedenen Modalitäten ein ungelöstes Problem. Im Gegensatz zu früheren modalitätsspezifischen Methoden schlagen wir in dieser Arbeit einen vereinheitlichten Fusionsrahmen, CMX, für die RGB-X-Semantiksegmentierung vor. Um sich gut über verschiedene Modalitäten hinweg zu verallgemeinern, die oft Ergänzungen sowie Unsicherheiten umfassen, ist eine vereinheitlichte intermodale Interaktion für die Modalitätsfusion entscheidend. Insbesondere entwickeln wir ein Modul zur Korrektur von intermodalen Merkmalen (Cross-Modal Feature Rectification Module, CM-FRM), um bimodale Merkmale durch die Nutzung von Merkmalen einer Modalität zur Korrektur der Merkmale der anderen Modalität abzugleichen. Mit korrigierten Merkmalspaaren setzen wir ein Featureschmelzmodul (Feature Fusion Module, FFM) ein, um einen ausreichenden Austausch langer Kontexte vor dem Mischen durchzuführen. Um CMX zu verifizieren, vereinen wir erstmals fünf Modalitäten, die RGB ergänzen: Tiefe, Thermografie, Polarisation, Ereignisse und LiDAR. Ausführliche Experimente zeigen, dass CMX sich gut auf vielfältige multimodale Fusion verallgemeinert und Spitzenleistungen auf fünf RGB-Tiefenschwellwertbenchmarks sowie auf RGB-Thermografie-, RGB-Polarisations- und RGB-LiDAR-Datensätzen erzielt. Darüber hinaus untersuchen wir die Verallgemeinerungsfähigkeit bei der Fusion dichter und spärlicher Daten und etablieren dazu einen Benchmark für die semantische Segmentierung von RGB-Ereignisdaten basierend auf dem EventScape-Datensatz, bei dem CMX den neuen Stand der Technik setzt. Der Quellcode von CMX ist öffentlich verfügbar unter https://github.com/huaaaliu/RGBX_Semantic_Segmentation.