vor 2 Monaten

Verstärktes axiales Verfeinerungsnetzwerk für monokulare 3D-Objekterkennung

Lijie Liu; Chufan Wu; Jiwen Lu; Lingxi Xie; Jie Zhou; Qi Tian

Abstract

Die monokulare 3D-Objekterkennung zielt darauf ab, die 3D-Position und -Eigenschaften von Objekten aus einem 2D-Eingangsbild zu extrahieren. Dies ist ein schlecht gestelltes Problem, bei dem die Haupt Schwierigkeit in der Informationsverlust durch tiefenunabhängige Kameras liegt. Herkömmliche Ansätze entnehmen 3D-Bounding-Boxen aus dem Raum und schließen auf das Verhältnis zwischen dem Zielobjekt und jeder einzelnen Box. Allerdings ist die Wahrscheinlichkeit effektiver Stichproben im 3D-Raum relativ gering. Um die Effizienz des Sammelns zu verbessern, schlagen wir vor, mit einer anfänglichen Vorhersage zu beginnen und diese schrittweise in Richtung der Wahrheit zu verfeinern, wobei bei jedem Schritt nur ein 3D-Parameter angepasst wird. Dafür ist es erforderlich, eine Strategie zu entwickeln, die nach mehreren Schritten eine Belohnung erhält. Daher verwenden wir das Reinforcement Learning zur Optimierung dieser Strategie. Das vorgeschlagene Framework, Reinforced Axial Refinement Network (RAR-Net), dient als Nachbearbeitungsstufe, die frei in bestehende monokulare 3D-Erkennungsmethoden integriert werden kann und die Leistung auf dem KITTI-Datensatz mit geringen zusätzlichen Rechenkosten verbessert.