Ground-aware Monokular 3D-Objekterkennung für autonome Fahrzeuge

Die Schätzung der 3D-Position und -Orientierung von Objekten in der Umgebung mit einer einzigen RGB-Kamera ist eine entscheidende und herausfordernde Aufgabe für kostengünstige autonome Fahrzeuge in städtischen Umgebungen sowie mobile Roboter. Die meisten bestehenden Algorithmen basieren auf geometrischen Einschränkungen in der 2D-3D-Zuordnung, die wiederum auf der allgemeinen Schätzung der 6D-Objektpose zurückgehen. Zunächst identifizieren wir, wie die Bodenebene zusätzliche Hinweise für die Tiefenschätzung bei der 3D-Detektion in Fahrzeugumgebungen liefert. Auf dieser Beobachtung aufbauend verbessern wir die Verarbeitung von 3D-Anchors und stellen ein neuartiges neuronales Netzwerkmodul vor, das solche anwendungsspezifischen Vorwissen im Rahmen von Deep Learning optimal ausnutzt. Abschließend präsentieren wir ein effizientes neuronales Netzwerk, das das vorgeschlagene Modul integriert, für die 3D-Objektdetektion. Wir bestätigen zudem die Wirksamkeit des vorgeschlagenen Moduls anhand eines neuronalen Netzes, das für die monokulare Tiefenschätzung konzipiert ist. Beide vorgeschlagenen Netzwerke erreichen jeweils Stand der Technik-Leistungen auf den KITTI-Benchmark-Daten für 3D-Objektdetektion und Tiefenschätzung. Der Quellcode wird unter https://www.github.com/Owen-Liuyuxuan/visualDet3D veröffentlicht.