RCM-Fusion: Radar-Kamera-Multi-Level-Fusion für die 3D-Objekterkennung

Obwohl LiDAR-Sensoren erfolgreich für die 3D-Objekterkennung eingesetzt wurden, hat die Kosteneffizienz von Radarsensoren und Kameras zu einem wachsenden Interesse an der Fusion von Radarsensoren und Kameras für die 3D-Objekterkennung geführt. Bisherige Modelle zur Radarsensor-Kamera-Fusion konnten jedoch das volle Potenzial der Radardaten nicht ausnutzen. In diesem Paper stellen wir RCM-Fusion (Radar-Camera Multi-level Fusion) vor, ein Ansatz, der beide Modalitäten sowohl auf der Merkmals- als auch auf der Instanz-Ebene fusioniert. Für die Merkmalsfusion entwickeln wir einen Radar-gesteuerten BEV-Encoder, der Kameramerkmale mithilfe der Führung durch Radar-Bird’s-Eye-View (BEV)-Merkmale in präzise BEV-Darstellungen transformiert und anschließend die Radarsensor- und Kamerabev-Merkmale kombiniert. Auf der Instanzebene schlagen wir ein Radar Grid Point Refinement-Modul vor, das die Lokalisationsgenauigkeit verbessert, indem es die charakteristischen Eigenschaften der Radarpunktwolken berücksichtigt. Experimente auf dem öffentlichen nuScenes-Datensatz zeigen, dass unsere vorgeschlagene RCM-Fusion im Vergleich zu bisherigen Einzelbild-basierten Ansätzen zur Radarsensor-Kamera-Fusion die derzeit beste Leistung im nuScenes-3D-Objekterkennungsbenchmark erzielt. Der Quellcode wird öffentlich zugänglich gemacht.