Zur robusten semantischen Segmentierung von Unfallszenen mittels Multi-Source-Mixed-Sampling und Meta-Learning

Autonome Fahrzeuge nutzen die Segmentierung städtischer Szenen, um die reale Welt menschenähnlich zu verstehen und entsprechend zu reagieren. Die semantische Segmentierung normaler Szenen hat auf herkömmlichen Benchmarks eine bemerkenswerte Steigerung der Genauigkeit erfahren. Allerdings sind ein erheblicher Teil der Unfälle im Alltag durch abnorme Szenen gekennzeichnet, beispielsweise solche mit Objektverformungen, Umkippen oder unerwartetem Verkehrsrückhalt. Da bereits geringfügige Fehlsegmentierungen von Fahrzeugumgebungen ernsthafte Bedrohungen für menschliches Leben darstellen können, ist die Robustheit solcher Modelle in Unfallsituationen ein entscheidender Faktor für die Sicherheit intelligenter Verkehrssysteme.In diesem Artikel präsentieren wir einen Multi-source Meta-learning Unsupervised Domain Adaptation (MMUDA)-Ansatz, um die Generalisierbarkeit von Segmentierungstransformern auf extrem abnorme Unfallszenen zu verbessern. In MMUDA nutzen wir die Methode des Multi-Domain Mixed Sampling, um Bilder aus mehreren Quellbereichen (normale Szenen) mit den Erscheinungsbildern der Zielbereiche (abnorme Szenen) zu erweitern. Zur Trainingsdurchführung kombinieren und untersuchen wir eine Meta-Lernstrategie im mehrquelligen Kontext, um die Robustheit der Segmentierungsergebnisse zu erhöhen. Darüber hinaus verbessern wir den Segmentierungs-Backbone (SegFormer) durch eine HybridASPP-Decoder-Architektur, die große Fenster-Attention-Spatial-Pyramiden-Pooling- und Strip-Pooling-Module beinhaltet, um langreichweitige kontextuelle Abhängigkeiten effizient zu aggregieren. Unser Ansatz erreicht auf dem DADA-seg-Benchmark eine mIoU-Score von 46,97 % und übertrifft damit das vorherige State-of-the-Art-Modell um mehr als 7,50 %. Der Quellcode wird öffentlich unter https://github.com/xinyu-laura/MMUDA verfügbar gemacht.