Tiefes Anpassungsgrad-Bewertungsnetzwerk für die monokulare 3D-Objekterkennung

In dieser Arbeit schlagen wir ein tiefes Anpassungsgrad-Bewertungsnetzwerk für die monokulare 3D-Objekterkennung vor, das darauf abzielt, den Anpassungsgrad zwischen Vorschlägen und Objekten eindeutig zu bewerten. Im Gegensatz zu den meisten existierenden monokularen Frameworks, die enge Restriktionen verwenden, um die 3D-Position zu ermitteln, erreicht unser Ansatz eine hochpräzise Lokalisierung durch die Messung des visuellen Anpassungsgrades zwischen den projizierten 3D-Vorschlägen und dem Objekt. Zunächst regressieren wir die Dimensionen und Orientierung des Objekts mit einer anchor-basierten Methode, sodass ein geeigneter 3D-Vorschlag konstruiert werden kann. Wir schlagen FQNet vor, das den 3D-IoU (Intersection over Union) zwischen den 3D-Vorschlägen und dem Objekt ausschließlich auf der Grundlage von 2D-Hinweisen ableiten kann. Daher sampeln wir während des Erkennungsprozesses eine große Anzahl von Kandidaten im 3D-Raum und projizieren diese 3D-Bounding-Boxen einzeln auf das 2D-Bild. Der beste Kandidat kann durch einfache Untersuchung der räumlichen Überlappung zwischen Vorschlägen und Objekt ausgewählt werden, in Form des ausgegebenen 3D-IoU-Scores von FQNet. Experimente auf dem KITTI-Datensatz zeigen die Effektivität unseres Frameworks.