CenterFusion: zentrumsbasierte Radar- und Kamerasensorfusion für die 3D-Objekterkennung

Das Wahrnehmungssystem autonomer Fahrzeuge ist dafür verantwortlich, umgebende Objekte zu detektieren und zu verfolgen. Dies erfolgt üblicherweise durch die Nutzung mehrerer Sensormodalitäten, um Robustheit und Genauigkeit zu erhöhen, was die Sensorfusion zu einem entscheidenden Bestandteil des Wahrnehmungssystems macht. In diesem Paper konzentrieren wir uns auf das Problem der Fusion von Radar- und Kamera-Sensoren und stellen einen Mittelfusionsansatz vor, um sowohl Radar- als auch Kameradaten für die 3D-Objektdetektion auszunutzen. Unser Ansatz, CenterFusion genannt, verwendet zunächst ein Zentrumspunkt-Detektionsnetzwerk, um Objekte zu erkennen, indem deren Zentrumspunkte in der Bildfläche identifiziert werden. Anschließend löst er das zentrale Problem der Datenzuordnung mittels einer neuartigen, frustumbasierten Methode, um die Radar-Detektionen ihren entsprechenden Objektzentren zuzuordnen. Die zugeordneten Radar-Detektionen werden dann verwendet, um radarbasierte Merkmalskarten zu generieren, die die Bildmerkmale ergänzen, sowie zur Schätzung von Objekteigenschaften wie Tiefe, Rotation und Geschwindigkeit. Wir evaluieren CenterFusion auf dem anspruchsvollen nuScenes-Datensatz, wo er den Gesamtwert des state-of-the-art-Kamerabasierten Algorithmus um mehr als 12 % im nuScenes Detection Score (NDS) verbessert. Zudem zeigen wir, dass CenterFusion die Genauigkeit der Geschwindigkeitsschätzung erheblich verbessert, ohne zusätzliche zeitliche Informationen zu verwenden. Der Quellcode ist unter https://github.com/mrnabati/CenterFusion verfügbar.