HyperAIHyperAI
vor 16 Tagen

BAAM: Monokulare 3D-Gestalt- und Pose-Rekonstruktion mit bi-kontextuellem Aufmerksamkeitsmodul und aufmerksamkeitsgeleiteter Modellierung

{Yeong Jun Koh, Seong-Gyun Jeong, Su-Min Choi, HanUl Kim, Hyo-Jun Lee}
BAAM: Monokulare 3D-Gestalt- und Pose-Rekonstruktion mit bi-kontextuellem Aufmerksamkeitsmodul und aufmerksamkeitsgeleiteter Modellierung
Abstract

Die 3D-Verkehrszenene umfasst verschiedene 3D-Informationen über Fahrzeuge, darunter deren Pose und Form. Dennoch richten die meisten aktuellen Studien vergleichsweise wenig Aufmerksamkeit auf die Rekonstruktion detaillierter Formen. Zudem behandeln sie die einzelnen 3D-Objekte meist als unabhängig voneinander, wodurch wichtige räumliche Kontextinformationen zwischen Objekten sowie der Szenenkontext, der die Straßenbedingungen widerspiegelt, verloren gehen. In dieser Arbeit wird ein neuartiger monokularer Algorithmus zur Rekonstruktion von 3D-Pose und -Form vorgestellt, basierend auf bi-kontextueller Aufmerksamkeit und aufmerksamkeitsgeleiteter Modellierung (BAAM). Zunächst rekonstruieren wir die 3D-Form von Objekten anhand von 2D-Primitiven mittels aufmerksamkeitsgeleiteter Modellierung, die die Relevanz zwischen detektierten Objekten und vorgegebenen Fahrzeugform-Prioris berücksichtigt. Anschließend schätzen wir die 3D-Pose durch bi-kontextuelle Aufmerksamkeit, die sowohl die Beziehungs-Context zwischen Objekten als auch die Szenen-Context zwischen einem Objekt und seiner Umgebung (Straßenraum) nutzt. Schließlich stellen wir einen 3D-Non-Maximum-Suppression-Algorithmus vor, der spurious Objekte aufgrund ihrer Bird-Eye-View-Distanz eliminieren kann. Ausführliche Experimente zeigen, dass der vorgeschlagene BAAM auf dem ApolloCar3D-Datensatz eine state-of-the-art-Leistung erzielt. Zudem belegen die Ergebnisse, dass BAAM nahtlos in beliebige etablierte monokulare 3D-Objektdetektoren auf dem KITTI-Datensatz integriert werden kann und deren Leistung erheblich steigert.