Kategorische Tiefenverteilungsnetzwerk für monokulare 3D-Objektdetektion

Die monokulare 3D-Objekterkennung stellt eine zentrale Herausforderung für autonome Fahrzeuge dar, da sie im Vergleich zu typischen Mehrsensorensystemen eine einfachere Konfiguration ermöglicht. Die Hauptaufgabe bei der monokularen 3D-Erkennung besteht darin, die Objektentfernung präzise vorherzusagen, was aufgrund des Fehlens direkter Entfernungsmessungen aus Objekt- und Szenenmerkmalen abgeleitet werden muss. Viele Ansätze versuchen, die Entfernung direkt zu schätzen, um die 3D-Erkennung zu unterstützen, erzielen jedoch aufgrund ungenauer Entfernungsschätzungen nur begrenzte Leistung. Unser vorgeschlagener Ansatz, das Kategorische Tiefenverteilungsnetzwerk (CaDDN), nutzt für jeden Pixel eine vorhergesagte kategorische Tiefenverteilung, um reichhaltige kontextuelle Merkmalsinformationen in den entsprechenden Tiefenintervall im 3D-Raum zu projizieren. Anschließend verwenden wir die rechenoptimierte Vogelperspektivenprojektion und einen Einphasen-Detektor, um die endgültigen Bounding-Box-Ausgaben zu generieren. CaDDN ist als vollständig differenzierbarer, end-to-end-Ansatz für die gemeinsame Schätzung der Tiefe und Objekterkennung konzipiert. Wir validieren unseren Ansatz am KITTI 3D-Objekterkennungsbenchmark, wo wir unter den veröffentlichten monokularen Methoden den ersten Platz belegen. Zudem präsentieren wir erstmals Ergebnisse der monokularen 3D-Erkennung auf dem neu veröffentlichten Waymo Open Dataset. Wir stellen den Quellcode für CaDDN zur Verfügung.