HyperAIHyperAI
vor 11 Tagen

RCFusion: Fusions von 4-D-Radar und Kamera mit Vogelperspektiv-Features für die 3-D-Objekterkennung

{Zhixiong Ma, Xichan Zhu, Jie Bai, Libo Huang, Sihan Chen, Long Yan, Bin Tan, Sen Li, Lianqing Zheng}
Abstract

Die Fusion von Kamera- und Millimeterwellen-(MMW)-Radar-Daten ist entscheidend für präzise und robuste Systeme im autonomen Fahren. Mit dem Fortschritt der Radartechnologie ist nun die nächste Generation hochauflösender automobiler Radarsysteme, sogenannte 4-D-Radar, entstanden. Im Gegensatz zu herkömmlichen Radarsystemen, die lediglich Informationen über Entfernung, Azimut und Doppler-Geschwindigkeit liefern, ermöglicht das 4-D-Radar zusätzlich die Messung der Höhe und erzeugt dadurch eine dichtere „Punktwolke“. In dieser Studie stellen wir ein Netzwerk zur Kamera- und 4-D-Radar-Fusion namens RCFusion vor, das multimodale Merkmale in einem einheitlichen Bird’s-Eye-View-(BEV)-Raum fusioniert, um Aufgaben der 3D-Objekterkennung zu bewältigen. Im Kamerastrom werden mehrskalige Merkmalskarten durch einen Bild-Backbone und ein Feature-Pyramid-Netzwerk (FPN) erzeugt und anschließend mittels einer orthografischen Merkmalstransformationskomponente (OFT) in orthografische Merkmalskarten umgewandelt. Anschließend werden durch einen speziell entworfenen gemeinsamen Aufmerksamkeits-Encoder verfeinerte und feinkörnige Bild-BEV-Merkmale erzeugt. Im 4-D-Radar-Strang wird eine neu entwickelte Komponente namens Radar PillarNet eingesetzt, die die Radarmerkmale effizient kodiert, um sogenannte Radar-Pseudobilder zu generieren, die anschließend in einen Punktwolken-Backbone eingespeist werden, um Radar-BEV-Merkmale zu erzeugen. Für die Fusionsphase wird ein interaktives Aufmerksamkeitsmodul (IAM) vorgeschlagen, das eine valide Fusion der beiden multimodalen BEV-Merkmale liefert. Schließlich wird ein generischer Detektionskopf eingesetzt, um Objektklassen und -positionen vorherzusagen. Das vorgeschlagene RCFusion wurde auf den Datensätzen TJ4DRadSet und View-of-Delft (VoD) evaluiert. Die experimentellen Ergebnisse und deren Analyse zeigen, dass die Methode effektiv Kamera- und 4-D-Radarmerkmale fusionieren kann, um eine robuste Erkennungsleistung zu erzielen.

RCFusion: Fusions von 4-D-Radar und Kamera mit Vogelperspektiv-Features für die 3-D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI