Frustum-PointPillars: Ein mehrstufiger Ansatz zur 3D-Objekterkennung unter Verwendung einer RGB-Kamera und LiDAR

Genauere 3D-Objekterkennung ist ein zentraler Bestandteil des Wahrnehmungsmoduls autonomer Fahrzeuge. Ein verbessertes Verständnis der Objekte im 3D-Raum ermöglicht bessere Entscheidungsfindung und Pfadplanung. RGB-Kameras und LiDAR sind die am häufigsten eingesetzten Sensoren in autonomen Fahrzeugen zur Umgebungswahrnehmung. Während zahlreiche Ansätze vielversprechende Ergebnisse bei der 2D-Erkennung mit RGB-Bildern erzielt haben, bleibt die effiziente Lokalisierung kleiner Objekte wie Fußgänger in 3D-Punktwolken großer Szenen ein herausforderndes Forschungsfeld. Wir stellen eine neuartige Methode, Frustum-PointPillars, zur 3D-Objekterkennung unter Verwendung von LiDAR-Daten vor. Anstatt sich ausschließlich auf Punktwolkenmerkmale zu verlassen, nutzen wir die etablierte Disziplin der 2D-Objekterkennung, um den Suchraum im 3D-Raum zu verkleinern. Anschließend wenden wir das Pillar Feature Encoding-Netzwerk zur Objektllokalisierung in der reduzierten Punktwolke an. Außerdem stellen wir einen neuartigen Ansatz zur Maskierung von Punktwolken vor, um die Objektllokalisierung weiter zu verbessern. Wir trainieren unser Netzwerk auf dem KITTI-Datensatz und führen Experimente durch, um die Wirksamkeit unseres Ansatzes zu belegen. Auf dem KITTI-Testset übertrifft unsere Methode andere state-of-the-art (SOTA)-Ansätze für mehrsensorbasierte 3D-Fußgängerlokalisierung (Bird’s Eye View) und erreicht gleichzeitig eine deutlich schnellere Laufzeit von 14 Hz.