HyperAIHyperAI

Command Palette

Search for a command to run...

CMX: Cross-Modal Fusion für die RGB-X-Semantische Segmentierung mit Transformers

Jiaming Zhang* Huayao Liu* Kailun Yang** Xinxin Hu Ruiping Liu and Rainer Stiefelhagen

Zusammenfassung

Die Szenenverstehens auf der Grundlage von Bildsegmentierung ist eine entscheidende Komponente autonomer Fahrzeuge. Die pixelweise semantische Segmentierung von RGB-Bildern kann durch die Nutzung ergänzender Merkmale aus der zusätzlichen Modalität (X-Modalität) verbessert werden. Allerdings bleibt das Abdecken einer breiten Palette von Sensoren mit einem modalitätsunabhängigen Modell aufgrund der Variationen in den Sensorcharakteristiken zwischen verschiedenen Modalitäten ein ungelöstes Problem. Im Gegensatz zu früheren modalitätsspezifischen Methoden schlagen wir in dieser Arbeit einen vereinheitlichten Fusionsrahmen, CMX, für die RGB-X-Semantiksegmentierung vor. Um sich gut über verschiedene Modalitäten hinweg zu verallgemeinern, die oft Ergänzungen sowie Unsicherheiten umfassen, ist eine vereinheitlichte intermodale Interaktion für die Modalitätsfusion entscheidend. Insbesondere entwickeln wir ein Modul zur Korrektur von intermodalen Merkmalen (Cross-Modal Feature Rectification Module, CM-FRM), um bimodale Merkmale durch die Nutzung von Merkmalen einer Modalität zur Korrektur der Merkmale der anderen Modalität abzugleichen. Mit korrigierten Merkmalspaaren setzen wir ein Featureschmelzmodul (Feature Fusion Module, FFM) ein, um einen ausreichenden Austausch langer Kontexte vor dem Mischen durchzuführen. Um CMX zu verifizieren, vereinen wir erstmals fünf Modalitäten, die RGB ergänzen: Tiefe, Thermografie, Polarisation, Ereignisse und LiDAR. Ausführliche Experimente zeigen, dass CMX sich gut auf vielfältige multimodale Fusion verallgemeinert und Spitzenleistungen auf fünf RGB-Tiefenschwellwertbenchmarks sowie auf RGB-Thermografie-, RGB-Polarisations- und RGB-LiDAR-Datensätzen erzielt. Darüber hinaus untersuchen wir die Verallgemeinerungsfähigkeit bei der Fusion dichter und spärlicher Daten und etablieren dazu einen Benchmark für die semantische Segmentierung von RGB-Ereignisdaten basierend auf dem EventScape-Datensatz, bei dem CMX den neuen Stand der Technik setzt. Der Quellcode von CMX ist öffentlich verfügbar unter https://github.com/huaaaliu/RGBX_Semantic_Segmentation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CMX: Cross-Modal Fusion für die RGB-X-Semantische Segmentierung mit Transformers | Paper | HyperAI