HyperAIHyperAI
vor 2 Monaten

RCBEVDet: Radar-Kamera-Fusion in Vogelperspektive für die 3D-Objekterkennung

Zhiwei Lin; Zhe Liu; Zhongyu Xia; Xinhao Wang; Yongtao Wang; Shengxiang Qi; Yang Dong; Nan Dong; Le Zhang; Ce Zhu
RCBEVDet: Radar-Kamera-Fusion in Vogelperspektive für die 3D-Objekterkennung
Abstract

Die dreidimensionale Objekterkennung ist eine der zentralen Aufgaben im autonomen Fahren. Um die Kosten in der Praxis zu senken, werden kostengünstige Multiview-Kameras vorgeschlagen, um die teuren LiDAR-Sensoren zu ersetzen. Allerdings ist es schwierig, allein mit Kameras eine hochgenaue und robuste 3D-Objekterkennung zu erreichen. Eine effektive Lösung für dieses Problem besteht darin, Multiview-Kameras mit dem wirtschaftlichen Radarsensor im Millimeterwellenbereich zu kombinieren, um eine zuverlässigere multimodale 3D-Objekterkennung zu realisieren. In dieser Arbeit stellen wir RCBEVDet vor, eine Methode zur Fusion von Radar und Kamera für die 3D-Objekterkennung in der Vogelperspektive (Bird's Eye View, BEV). Insbesondere entwickeln wir RadarBEVNet für die Extraktion von Radar-BEV-Features. RadarBEVNet besteht aus einem Dual-Stream-Radar-Backbone und einem RCS-bewussten BEV-Codierer (Radar Cross-Section aware BEV encoder). Im Dual-Stream-Radar-Backbone schlagen wir einen punktbasierten Codierer und einen transformerbasierten Codierer vor, um Radarfeatures zu extrahieren, wobei ein Injektions- und Extraktionsmodul den Austausch zwischen den beiden Codierern erleichtert. Der RCS-bewusste BEV-Codierer verwendet das RCS als Größenprior beim Streuen der Punkteigenschaften in der BEV. Darüber hinaus präsentieren wir das Modul zur automatischen Ausrichtung multimodaler BEV-Features von Radar und Kamera durch das deformable Attention Mechanismus (Cross-Attention Multi-layer Fusion module), gefolgt von einer Fusion der Features auf Kanal- und Ortsbasis (channel and spatial fusion layers). Die experimentellen Ergebnisse zeigen, dass RCBEVDet neue Standartwerte in der Fusion von Radar und Kamera auf den Benchmarks nuScenes und view-of-delft (VoD) für 3D-Objekterkennung erzielt. Darüber hinaus liefert RCBEVDet bessere 3D-Erkennungsergebnisse als alle Echtzeit-Kamerasysteme und Radar-Kamera-Detektoren mit einer höheren Inferenzgeschwindigkeit von 21~28 FPS. Der Quellcode wird unter https://github.com/VDIGPKU/RCBEVDet veröffentlicht.

RCBEVDet: Radar-Kamera-Fusion in Vogelperspektive für die 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI