CR3DT: Kamera-RADAR-Fusion für 3D-Erkennung und -Verfolgung

Um autonomes Fahren zu ermöglichen, ist eine genaue Erkennung und Verfolgung von umliegenden Objekten entscheidend. Obwohl Lichterkundungs- und -messsensoren (Light Detection and Ranging, LiDAR) den Standard für hochleistungsfähige Systeme gesetzt haben, liegt der Reiz von rein kamera-basierten Lösungen in ihrer Kosteneffizienz. Besonders auffällig ist, dass trotz der weit verbreiteten Nutzung von Funkerkundungs- und -messsensoren (Radio Detection and Ranging, RADAR) in Automobilanwendungen ihr Potenzial bei der 3D-Erkennung und -Verfolgung weitgehend vernachlässigt wurde, aufgrund der Datenknappheit und Messrauschen. Als jüngste Entwicklung zeigt sich die Kombination von RADARs und Kameras als vielversprechende Lösung. In dieser Arbeit wird das Modell für die Kamera-RADAR-3D-Erkennung und -Verfolgung (Camera-RADAR 3D Detection and Tracking, CR3DT) vorgestellt, das sowohl die 3D-Erkennung von Objekten als auch die Mehrfachobjektverfolgung (Multi-Object Tracking, MOT) unterstützt. Aufbauend auf dem Fundament der Stand-of-the-Art (SotA)-Kameralösung BEVDet zeigt CR3DT erhebliche Verbesserungen in den Erkennungs- und Verfolgungsfähigkeiten durch die Integration der räumlichen und Geschwindigkeitsinformationen des RADAR-Sensors. Experimentelle Ergebnisse belegen eine absolute Steigerung der Erkennungsleistung um 5,3 % im mittleren Durchschnittswert der Genauigkeit (mean Average Precision, mAP) sowie einen Anstieg um 14,9 % im Durchschnittswert der Mehrfachobjektverfolgungsgenauigkeit (Average Multi-Object Tracking Accuracy, AMOTA) auf dem nuScenes-Datensatz bei Verwendung beider Modalitäten. CR3DT schließt die Lücke zwischen hochleistungsfähigen und kosteneffizienten Wahrnehmungssystemen im autonomen Fahren, indem es das weit verbreitete Vorkommen von RADAR in Automobilanwendungen nutzt. Der Code ist unter folgendem Link verfügbar: https://github.com/ETH-PBL/CR3DT.