HyperAIHyperAI
vor 16 Tagen

MonoRUn: Monokulare 3D-Objektdetektion durch Rekonstruktion und Unsicherheitspropagation

Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong
MonoRUn: Monokulare 3D-Objektdetektion durch Rekonstruktion und Unsicherheitspropagation
Abstract

Die Lokalisierung von Objekten im dreidimensionalen Raum stellt eine herausfordernde Aufgabe im monokularen 3D-Objektdetektionsbereich dar. Neuere Fortschritte in der 6-DoF-Pose-Schätzung haben gezeigt, dass die Vorhersage dichter 2D-3D-Zuordnungskarten zwischen Bild und 3D-Objektmodell sowie die anschließende Schätzung der Objektpose mittels Perspective-n-Point-(PnP)-Algorithmus eine bemerkenswerte Lokalisierungsgenauigkeit erzielen kann. Diese Ansätze beruhen jedoch auf dem Training mit Ground-Truth-Daten zur Objektgeometrie, die in realen Außenbereichen schwer zu erheben sind. Um dieses Problem zu lösen, stellen wir MonoRUn vor – einen neuartigen Detektionsrahmen, der dichte Korrespondenzen und Geometrie auf selbstüberwachter Basis mit lediglich einfachen 3D-Bounding-Box-Annotationen lernt. Zur Schätzung der pixelbezogenen 3D-Koordinaten des Objekts nutzen wir ein regionales Rekonstruktionsnetzwerk mit Unsicherheitsbewusstsein. Für das selbstüberwachte Training werden die vorhergesagten 3D-Koordinaten rückprojiziert in die Bildebene. Wir führen eine robuste KL-Verlustfunktion ein, um den unsicherheitsgewichteten Reprojektionsfehler zu minimieren. Im Testphase nutzen wir die Netzwerkunsicherheit, indem wir sie durch alle nachgeschalteten Module propagieren. Genauer gesagt wird ein unsicherheitsgesteuerter PnP-Algorithmus eingesetzt, um die Objektpose sowie deren Kovarianz zu schätzen. Ausführliche Experimente zeigen, dass unser vorgeschlagener Ansatz gegenwärtige State-of-the-Art-Methoden auf dem KITTI-Benchmark übertrifft.