HyperAIHyperAI

Command Palette

Search for a command to run...

RCBEVDet: Radar-Kamera-Fusion in Vogelperspektive für die 3D-Objekterkennung

Zhiwei Lin1∗ Zhe Liu2∗ Zhongyu Xia1 Xinhao Wang1 Yongtao Wang1† Shengxiang Qi3 Yang Dong3 Nan Dong3 Le Zhang2 Ce Zhu2

Zusammenfassung

Die dreidimensionale Objekterkennung ist eine der zentralen Aufgaben im autonomen Fahren. Um die Kosten in der Praxis zu senken, werden kostengünstige Multiview-Kameras vorgeschlagen, um die teuren LiDAR-Sensoren zu ersetzen. Allerdings ist es schwierig, allein mit Kameras eine hochgenaue und robuste 3D-Objekterkennung zu erreichen. Eine effektive Lösung für dieses Problem besteht darin, Multiview-Kameras mit dem wirtschaftlichen Radarsensor im Millimeterwellenbereich zu kombinieren, um eine zuverlässigere multimodale 3D-Objekterkennung zu realisieren. In dieser Arbeit stellen wir RCBEVDet vor, eine Methode zur Fusion von Radar und Kamera für die 3D-Objekterkennung in der Vogelperspektive (Bird's Eye View, BEV). Insbesondere entwickeln wir RadarBEVNet für die Extraktion von Radar-BEV-Features. RadarBEVNet besteht aus einem Dual-Stream-Radar-Backbone und einem RCS-bewussten BEV-Codierer (Radar Cross-Section aware BEV encoder). Im Dual-Stream-Radar-Backbone schlagen wir einen punktbasierten Codierer und einen transformerbasierten Codierer vor, um Radarfeatures zu extrahieren, wobei ein Injektions- und Extraktionsmodul den Austausch zwischen den beiden Codierern erleichtert. Der RCS-bewusste BEV-Codierer verwendet das RCS als Größenprior beim Streuen der Punkteigenschaften in der BEV. Darüber hinaus präsentieren wir das Modul zur automatischen Ausrichtung multimodaler BEV-Features von Radar und Kamera durch das deformable Attention Mechanismus (Cross-Attention Multi-layer Fusion module), gefolgt von einer Fusion der Features auf Kanal- und Ortsbasis (channel and spatial fusion layers). Die experimentellen Ergebnisse zeigen, dass RCBEVDet neue Standartwerte in der Fusion von Radar und Kamera auf den Benchmarks nuScenes und view-of-delft (VoD) für 3D-Objekterkennung erzielt. Darüber hinaus liefert RCBEVDet bessere 3D-Erkennungsergebnisse als alle Echtzeit-Kamerasysteme und Radar-Kamera-Detektoren mit einer höheren Inferenzgeschwindigkeit von 21~28 FPS. Der Quellcode wird unter https://github.com/VDIGPKU/RCBEVDet veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp