Pseudo-LiDAR aus visueller Tiefenschätzung: Überbrückung der Lücke in der 3D-Objekterkennung für autonomes Fahren

Die 3D-Objekterkennung ist eine wesentliche Aufgabe im autonomen Fahren. Aktuelle Techniken erzielen bei hochgenauen Erkennungsquoten ausgezeichnete Ergebnisse, vorausgesetzt, die 3D-Eingabedaten werden durch präzise, aber teure LiDAR-Technologie gewonnen. Ansätze, die auf günstigeren monokularen oder stereoskopischen Bild-Datensätzen basieren, führten bisher zu deutlich niedrigeren Genauigkeiten – ein Unterschied, der häufig auf mangelhafte bildbasierte Tiefenschätzungen zurückgeführt wird. In dieser Arbeit argumentieren wir jedoch, dass es nicht die Qualität der Daten ist, sondern ihre Darstellung, die den größten Teil des Unterschiedes verursacht. Indem wir die internen Abläufe von Faltungsneuronalen Netzen berücksichtigen, schlagen wir vor, bildbasierte Tiefenkarten in Pseudo-LiDAR-Darstellungen umzuwandeln – im Wesentlichen das LiDAR-Signal nachahmend. Mit dieser Darstellung können wir verschiedene bestehende LiDAR-basierte Erkennungsalgorithmen anwenden. Auf dem bekannten KITTI-Benchmark erreicht unser Ansatz beeindruckende Verbesserungen gegenüber dem aktuellen Stand der Technik in bildbasierter Leistung – indem er die Erkennungsrate von Objekten im Bereich von 30 Metern von dem früheren Stand der Technik von 22 % auf einen bislang unbekannten Wert von 74 % erhöht. Zum Zeitpunkt der Abgabe hält unser Algorithmus den höchsten Eintrag auf dem KITTI-Leaderboard für stereoskopische bildbasierte Ansätze zur 3D-Objekterkennung. Unser Code ist öffentlich verfügbar unter https://github.com/mileyan/pseudo_lidar.