Multi-View 3D Objekterkennungsnetzwerk für autonome Fahrzeuge

Dieses Papier zielt auf eine hochgenaue 3D-Objekterkennung im Szenario autonomer Fahrzeuge. Wir schlagen Multi-View 3D Netze (MV3D) vor, einen sensorischen Fusionsrahmen, der sowohl LIDAR-Punktwolken als auch RGB-Bilder als Eingabe verwendet und orientierte 3D-Bounding-Boxen vorhersagt. Wir kodieren die dünn besetzte 3D-Punktwolke mit einer kompakten Mehrfachansichtsdarstellung. Das Netzwerk besteht aus zwei Unter-netzwerken: einem für die Generierung von 3D-Objektvorschlägen und einem anderen für die Mehrfachansichtsfusions. Das Vorschlagsnetzwerk erzeugt effizient 3D-Kandidatenboxen aus der Vogelperspektive-Darstellung der 3D-Punktwolke. Wir haben ein tiefes Fusionsverfahren entwickelt, um regionspezifische Merkmale aus mehreren Ansichten zu kombinieren und Interaktionen zwischen den Zwischenschichten verschiedener Pfade zu ermöglichen. Experimente am anspruchsvollen KITTI-Benchmark zeigen, dass unser Ansatz den aktuellen Stand der Technik bei den Aufgaben der 3D-Lokalisierung und 3D-Erkennung um etwa 25 % und 30 % AP übertrifft. Darüber hinaus erreicht unser Ansatz bei der 2D-Erkennung unter den LIDAR-basierten Methoden bei schweren Daten um 10,3 % höhere AP-Werte als der aktuelle Stand der Technik.Anmerkungen:- "bird's eye view" wurde als "Vogelperspektive" übersetzt, was im Kontext von Autonomen Fahrzeugen gebräuchlich ist.- "AP" steht für "Average Precision" und wurde unverändert gelassen, da es ein etabliertes Metrik in der Erkennungscommunity ist.- Die Übersetzung bleibt formal und akademisch, wie es für technische oder wissenschaftliche Texte typisch ist.