Tiefenbedingte dynamische Nachrichtenweiterleitung für die monokulare 3D-Objekterkennung

Das Ziel dieses Papers besteht darin, kontext- und tiefenbewusste Merkmalsdarstellungen zu erlernen, um das Problem der monokularen 3D-Objekterkennung zu lösen. Wir leisten folgende Beiträge: (i) Anstatt auf aufwändige, auf Pseudo-LiDAR basierende Ansätze zurückzugreifen, schlagen wir ein tiefenbedingtes dynamisches Nachrichten-Propagationsnetzwerk (DDMP) vor, um die informationsreiche, mehrskalige Tiefeninformation effektiv mit dem Bildkontext zu integrieren; (ii) dies wird erreicht, indem zunächst kontextbewusste Knoten im Bildkontext adaptiv abgetastet werden und anschließend dynamisch hybride, tiefenabhängige Filtergewichte sowie Affinitätsmatrizen zur Informationsweiterleitung vorhergesagt werden; (iii) durch die Einführung einer zentrumssensiblen Tiefen-Codierungsaufgabe (CDE) gelingt es uns, die ungenaue Tiefenpriorität erfolgreich zu mildern; (iv) wir demonstrieren umfassend die Wirksamkeit unseres vorgeschlagenen Ansatzes und erreichen state-of-the-art Ergebnisse unter den monokularen Methoden auf dem KITTI-Benchmark-Datensatz. Insbesondere erreichten wir am Submissionstag (16. November 2020) die Platzierung auf Rang 1 in der hochkompetitiven KITTI monokularen 3D-Objekterkennungskategorie. Der Quellcode und die Modelle sind unter \url{https://github.com/fudan-zvg/DDMP} verfügbar.