PIXOR: Echtzeit 3D Objekterkennung aus Punktwolken

Wir behandeln das Problem der Echtzeit-3D-Objekterkennung aus Punktwolken im Kontext des autonomen Fahrens. Die Rechengeschwindigkeit ist entscheidend, da die Erkennung eine notwendige Komponente für die Sicherheit darstellt. Bestehende Ansätze sind jedoch aufgrund der hohen Dimensionalität von Punktwolken rechenaufwändig. Wir nutzen die 3D-Daten effizienter, indem wir die Szene aus der Vogelperspektive (Bird's Eye View, BEV) darstellen, und schlagen PIXOR vor, einen vorschlagsfreien, einstufigen Detektor, der orientierte 3D-Objektabschätzungen aus pixelbasierten neuronalen Netzwerkvorhersagen decodiert. Die EingabedDarstellung, die Netzarchitektur und die Modelloptimierung sind besonders darauf ausgelegt, hohe Genauigkeit und Echtzeiteffizienz zu balancieren. Wir validieren PIXOR anhand zweier Datensätze: dem KITTI-BEV-Objekterkennungsbenchmark und einem groß angelegten 3D-Fahrzeugerkennungsbenchmark. In beiden Datensätzen zeigen wir, dass der vorgeschlagene Detektor in Bezug auf den durchschnittlichen Präzisionswert (Average Precision, AP) erheblich andere state-of-the-art-Methoden übertrifft und dabei immer noch mit einer Geschwindigkeit von >28 FPS läuft.