EPMF: Effiziente wahrnehmungsorientierte Mehrsensorfusion für die 3D-Semantische Segmentierung

Wir untersuchen die Mehrsensorfusion für die 3D-Semantische Segmentierung, die für die Szenenverstehbarkeit in zahlreichen Anwendungen wie autonomen Fahrzeugen und Robotik von entscheidender Bedeutung ist. Bestehende auf Fusion basierende Ansätze erreichen jedoch möglicherweise keine zufriedenstellenden Ergebnisse, da die beiden Modalitäten erhebliche Unterschiede aufweisen. In dieser Arbeit untersuchen wir ein kooperatives Fusionsschema namens perception-aware multi-sensor fusion (PMF), um die perceptuelle Information aus zwei Modalitäten effektiv auszunutzen: die Erscheinungsmerkmale aus RGB-Bildern und die raumzeitliche Tiefeninformation aus Punktwolken. Hierzu projizieren wir die Punktwolken mittels perspektivischer Projektion in das Kamerakoordinatensystem und verarbeiten sowohl die Eingaben aus LiDAR als auch aus Kameras im 2D-Raum, wobei wir den Informationsverlust der RGB-Bilder vermeiden. Anschließend schlagen wir ein zweistromiges Netzwerk vor, um Merkmale aus beiden Modalitäten separat zu extrahieren. Die extrahierten Merkmale werden durch effektive, auf Residual-Modulen basierende Fusionseinheiten zusammengeführt. Zudem führen wir zusätzliche perception-aware Verlustfunktionen ein, um den perceptuellen Unterschied zwischen den beiden Modalitäten zu messen. Schließlich präsentieren wir eine verbesserte Version von PMF, namens EPMF, die durch Optimierung der Datenvorverarbeitung und des Netzwerkarchitekturen unter perspektivischer Projektion effizienter und leistungsfähiger ist. Insbesondere schlagen wir eine quermodale Ausrichtung und Ausschneidung vor, um enge Eingabedaten zu erhalten und unnötige Rechenkosten zu reduzieren. Anschließend untersuchen wir effizientere kontextuelle Module unter perspektivischer Projektion und integrieren die LiDAR-Merkmale in den Kamerastrom, um die Leistung des zweistromigen Netzwerks zu steigern. Umfangreiche Experimente auf Benchmark-Datensätzen belegen die Überlegenheit unseres Ansatzes. Beispielsweise erreicht unsere EPMF auf dem nuScenes-Testset eine Verbesserung von 0,9 % im mIoU gegenüber dem aktuellen Stand der Technik, d.h. RangeFormer. Der Quellcode ist unter https://github.com/ICEORY/PMF verfügbar.