HyperAIHyperAI
vor 2 Monaten

RCBEVDet++: Auf dem Weg zu hochgenauer Radar-Kamera-Fusion 3D-Wahrnehmungsnetzwerk

Lin, Zhiwei ; Liu, Zhe ; Wang, Yongtao ; Zhang, Le ; Zhu, Ce
RCBEVDet++: Auf dem Weg zu hochgenauer Radar-Kamera-Fusion 3D-Wahrnehmungsnetzwerk
Abstract

Die Wahrnehmung der umgebenden Umgebung ist eine grundlegende Aufgabe im autonomen Fahren. Um hochgenaue Wahrnehmungsresultate zu erzielen, verwenden moderne autonome Fahrzeugsysteme in der Regel multimodale Sensoren, um umfassende Umweltinformationen zu sammeln. Unter diesen Sensoren wird das Radar-Kamera-Multimodalitätssystem besonders geschätzt aufgrund seiner ausgezeichneten Sensorkapazitäten und Kosteneffizienz. Allerdings stellen die erheblichen Unterschiede zwischen den Modalitäten von Radarsensoren und Kamerasensoren Herausforderungen bei der Informationsfusion. Um dieses Problem anzugehen, präsentiert dieser Artikel RCBEVDet, ein Framework zur Fusion von Radar- und Kamera-Daten für die 3D-Objekterkennung. Insbesondere wurde RCBEVDet aus einem bestehenden kamerabasierten 3D-Objekterkennungsmodell entwickelt, ergänzt durch einen speziell entworfenen Radarfunktionsextraktor, RadarBEVNet, und ein Modul zur Cross-Attention-Mehrstufigen-Fusion (CAMF). Zunächst kodiert RadarBEVNet spärliche Radarpunkte in eine dichte bird’s-eye-view (BEV)-Funktion unter Verwendung eines Dual-Stream-Radar-Rückgratnetzes und eines Radar Cross Section bewussten BEV-Codierers. Anschließend nutzt das CAMF-Modul ein deformables Aufmerksamkeitsmechanismus, um die BEV-Funktionen von Radar und Kamera auszurichten, und verwendet Kanal- und räumliche Fusionsschichten, um sie zu fusionieren. Um die Leistungsfähigkeit von RCBEVDet weiter zu verbessern, führen wir RCBEVDet++ ein, das die CAMF durch spärliche Fusion optimiert, query-basierte Mehransicht-Kamerasensormodelle unterstützt und sich auf eine breitere Palette von Wahrnehmungsaufgaben anpasst. Ausführliche Experimente mit dem nuScenes-Datensatz zeigen, dass unsere Methode nahtlos in bestehende kamerabasierte 3D-Wahrnehmungsmodelle integriert werden kann und deren Leistung bei verschiedenen Wahrnehmungsaufgaben verbessert. Darüber hinaus erreicht unsere Methode Spitzenwerte in der Fusion von Radar- und Kamera-Daten für 3D-Objekterkennung, BEV-Semantische Segmentierung und 3D-Mehrzielverfolgung. Bemerkenswerterweise erreicht RCBEVDet++ mit ViT-L als Bildrückenbonemaschine ohne Testzeit-Augmentation oder Modellensembles 72,73 NDS und 67,34 mAP in der 3D-Objekterkennung.Anmerkungen:- "bird’s-eye-view" wurde beibehalten, da es in der deutschen Fachliteratur oft so verwendet wird.- "Radar Cross Section" wurde als "Radar Cross Section" belassen, da es sich um einen technischen Begriff handelt.- "ViT-L" steht für "Vision Transformer Large" und wurde unverändert gelassen.- "NDS" steht für "NuScenes Detection Score" und wurde ebenfalls unverändert gelassen.- "mAP" steht für "mean Average Precision" und wurde ebenfalls unverändert gelassen.

RCBEVDet++: Auf dem Weg zu hochgenauer Radar-Kamera-Fusion 3D-Wahrnehmungsnetzwerk | Neueste Forschungsarbeiten | HyperAI