Objekte sind unterschiedlich: Flexible monokulare 3D-Objektdetektion

Die präzise Lokalisierung von 3D-Objekten anhand einer einzigen Bildaufnahme ohne Tiefeninformation ist ein hochgradig herausforderndes Problem. Die meisten bestehenden Methoden verfolgen für alle Objekte einen gleichartigen Ansatz, unabhängig von deren unterschiedlichen räumlichen Verteilungen, was zu begrenzter Leistung bei abgeschnittenen Objekten führt. In diesem Paper stellen wir einen flexiblen Rahmen für die monokulare 3D-Objekterkennung vor, der abgeschnittene Objekte explizit entkoppelt und adaptiv mehrere Ansätze zur Tiefenschätzung kombiniert. Konkret entkoppeln wir die Kanten des Merkmalspektrums, um langschwänzige, abgeschnittene Objekte präziser vorherzusagen, sodass die Optimierung normaler Objekte nicht beeinträchtigt wird. Darüber hinaus formulieren wir die Tiefenschätzung als unsicherheitsgeleitete Kombination von direkt regressierten Objekttiefen und gelösten Tiefen aus verschiedenen Gruppen von Schlüsselpunkten. Experimente zeigen, dass unsere Methode die State-of-the-Art-Methode im KITTI-Benchmark um insgesamt 27 % bei moderater Schwierigkeit und 30 % bei hoher Schwierigkeit übertrifft, während gleichzeitig Echtzeit-Leistung gewährleistet bleibt. Der Quellcode wird unter \url{https://github.com/zhangyp15/MonoFlex} verfügbar sein.