ClusterFusion: Ausnutzung von Radarspatialmerkmalen für die Radar-Kamera-3D-Objekterkennung in autonomen Fahrzeugen

Dank der komplementären Natur von Millimeterwellenradar und Kamera können tiefenlernenbasierte Methoden zur 3D-Objekterkennung aus Radar und Kamera zuverlässig präzise Detektionen auch unter schlechten Sichtbedingungen liefern. Dies macht sie besonders geeignet für die Perzeptionssysteme autonomer Fahrzeuge, insbesondere da die kombinierte Kostenstruktur beider Sensoren günstiger ist als die eines Lidars. Aktuelle Radar-Kamera-Methoden führen typischerweise eine Merkmalsfusion auf der Ebene der Merkmale durch, wobei die Radarpunkte häufig auf die gleiche Ebene wie die Bildmerkmale projiziert und die extrahierten Merkmale beider Modalitäten anschließend fusioniert werden. Obwohl die Fusion auf der Bildebene allgemein einfacher und schneller ist, führt die Projektion der Radarpunkte auf die Bildebene zu einer Abflachung der Tiefendimension der Punktewolke, was zu Informationsverlust führen und die Extraktion räumlicher Merkmale aus der Punktewolke erschweren kann. Wir stellen ClusterFusion vor, eine Architektur, die die lokalen räumlichen Merkmale der Radar-Punktewolke nutzt, indem die Punktewolke zunächst clusteringbasiert gruppiert und die Merkmalsextraktion direkt auf den entstandenen Clustern durchgeführt wird, bevor die Merkmale auf die Bildebene projiziert werden. ClusterFusion erreichte auf dem Test-Slice der nuScenes-Datenbank die führende Leistung unter allen Radar-Monokamera-Methoden mit einem nuScenes-Detection-Score (NDS) von 48,7 %. Zudem untersuchten wir die Leistung verschiedener Strategien zur Merkmalsextraktion aus Punktewolken-Clustern: eine handgefertigte Strategie, eine lernbasierte Strategie sowie eine Kombination beider Ansätze, und fanden, dass die handgefertigte Strategie die beste Leistung erzielte. Das Hauptziel dieser Arbeit besteht darin, die Nutzung lokaler räumlicher und punktweiser Merkmale des Radars durch direkte Extraktion aus Radar-Punktewolken-Clustern zu erforschen, um eine Radar-Monokamera-3D-Objekterkennungsmethode zu entwickeln, die eine cross-modale Merkmalsfusion auf der Bildebene durchführt.