Geometriebasierte Distanzdekomposition für die monokulare 3D-Objekterkennung

Die monokulare 3D-Objekterkennung ist für autonome Fahrzeuge von großer Bedeutung, bleibt aber herausfordernd. Die zentrale Schwierigkeit besteht darin, die Entfernung von Objekten vorherzusagen, ohne explizite Tiefeninformationen zu besitzen. Im Gegensatz zu den meisten bestehenden Methoden, die die Entfernung als einzelne Variable regressieren, schlagen wir eine neuartige geometriebasierte Entfernungsdiskretisierung vor, um die Entfernung durch ihre Bestandteile wiederherzustellen. Diese Diskretisierung zerlegt die Entfernung von Objekten in die repräsentativsten und stabilsten Variablen, nämlich die physikalische Höhe und die projizierte visuelle Höhe in der Bildebene. Zudem gewährleistet die Diskretisierung die Selbstkonsistenz zwischen beiden Höhen, was zu robuster Entfernungsvorhersage führt, selbst wenn beide vorhergesagten Höhen ungenau sind. Darüber hinaus ermöglicht die Diskretisierung die Rückverfolgung der Ursachen der Entfernungsunschärfe unter verschiedenen Szenarien. Diese Zerlegung macht die Entfernungsvorhersage interpretierbar, präzise und robust. Unser Ansatz prognostiziert direkt 3D-Bounding-Boxes aus RGB-Bildern mit einer kompakten Architektur, was das Training und die Inferenz einfach und effizient gestaltet. Die experimentellen Ergebnisse zeigen, dass unsere Methode die bisher beste Leistung auf den monokularen 3D-Objekterkennungs- und Birds-Eye-View-Aufgaben des KITTI-Datensatzes erzielt und sich zudem auf Bilder mit unterschiedlichen Kameraintrinsika verallgemeinern lässt.