Genauige 3D-Objekterkennung mithilfe energiebasierter Modelle

Genauige 3D-Objekterkennung (3DOD) ist entscheidend für die sichere Navigation komplexer Umgebungen durch autonome Roboter. Die Schätzung präziser 3D-Bounding-Boxes in stark besetzten Umgebungen basierend auf spärlichen LiDAR-Daten stellt jedoch ein äußerst herausforderndes Problem dar. Wir adressieren diese Aufgabe, indem wir jüngste Fortschritte in bedingten energiebasierten Modellen (EBMs) für die probabilistische Regression nutzen. Während Methoden, die EBMs für die Regression einsetzen, beeindruckende Leistungen bei der 2D-Objekterkennung in Bildern gezeigt haben, sind diese Techniken nicht direkt auf 3D-Bounding-Boxes übertragbar. In dieser Arbeit entwickeln wir daher einen differenzierbaren Pooling-Operator für 3D-Bounding-Boxes, der als zentrales Modul unseres EBM-Netzwerks dient. Wir integrieren diesen allgemeinen Ansatz zudem in den aktuellen Stand der Technik bei 3D-Objekterkennern, den SA-SSD. Auf dem KITTI-Datensatz übertrifft unser vorgeschlagener Ansatz konsistent die SA-SSD-Basislinie in allen 3DOD-Metriken und demonstriert das Potenzial der EBM-basierten Regression für eine hochgenaue 3D-Objekterkennung. Der Quellcode ist unter https://github.com/fregu856/ebms_3dod verfügbar.