vor 2 Monaten

SpaRC: Sparse Radar-Kamera-Fusion für die 3D-Objekterkennung

Wolters, Philipp ; Gilg, Johannes ; Teepe, Torben ; Herzog, Fabian ; Fent, Felix ; Rigoll, Gerhard

Abstract

In dieser Arbeit stellen wir SpaRC vor, einen neuen dünnbesetzten Fusions-Transformer für die 3D-Wahrnehmung, der Semantiken aus mehreren Kamerasichtweisen mit Radar- und Kamera-Punktmerkmalen integriert. Die Fusion von Radardaten und Kamerabildern hat sich als effizientes Wahrnehmungsparadigma für autonome Fahrzeugsysteme etabliert. Während herkömmliche Ansätze dichte Bird’s Eye View (BEV)-basierte Architekturen zur Tiefenschätzung verwenden, erzielen moderne query-basierte Transformer durch eine objektzentrierte Methode hervorragende Ergebnisse bei der rein kamerabasierten Detektion. Diese query-basierten Ansätze weisen jedoch Einschränkungen in Bezug auf falsch positive Detektionen und Lokalisationsgenauigkeit auf, bedingt durch die implizite Modellierung der Tiefe. Wir begegnen diesen Herausforderungen durch drei wesentliche Beiträge: (1) dünnbesetzte Frustum-Fusion (SFF) zur Modalitätsübergreifenden Merkmalsausrichtung, (2) bereichsanpassbare Radar-Aggregation (RAR) zur präzisen Objektlokalisierung und (3) lokale Selbst-Aufmerksamkeit (LSA) zur fokussierten Query-Aggregation. Im Gegensatz zu bestehenden Methoden, die rechenintensive BEV-Gitter-Rendering erfordern, arbeitet SpaRC direkt mit kodierten Punktmerkmalen, was zu erheblichen Verbesserungen in Effizienz und Genauigkeit führt. Empirische Auswertungen anhand der Benchmarks nuScenes und TruckScenes zeigen, dass SpaRC bestehende dichte BEV-basierte und dünnbesetzte query-basierte Detektoren deutlich übertrifft. Unsere Methode erreicht Stand-of-the-Art-Leistungswerte von 67,1 NDS und 63,1 AMOTA. Der Code und die vortrainierten Modelle sind unter https://github.com/phi-wol/sparc verfügbar.