EPro-PnP: Generalisierte end-to-end probabilistische Perspective-n-Points-Methode für die Monokulare Objektposeabschätzung

Die Lokalisierung von 3D-Objekten aus einer einzigen RGB-Bildaufnahme mittels Perspective-n-Points (PnP) ist ein klassisches Problem der Computer Vision. Getrieben durch end-to-end Deep Learning schlagen jüngere Studien vor, PnP als differenzierbare Schicht zu interpretieren, sodass 2D-3D-Punktpaare teilweise durch Rückpropagierung des Gradienten bezüglich der Objekt-Pose gelernt werden können. Dennoch führt das Lernen des gesamten Satzes von unbeschränkten 2D-3D-Punkten von Grund auf mit bestehenden Ansätzen nicht zur Konvergenz, da die deterministische Pose intrinsisch nicht differenzierbar ist. In diesem Paper stellen wir EPro-PnP vor, eine probabilistische PnP-Schicht für allgemeine end-to-end-Pose-Schätzung, die eine Verteilung der Pose auf dem SE(3)-Mannigfaltigkeit ausgibt und somit die kategorische Softmax in den kontinuierlichen Raum überträgt. Die 2D-3D-Koordinaten und zugehörigen Gewichte werden als Zwischenvariablen behandelt, die durch Minimierung der KL-Divergenz zwischen der vorhergesagten und der Ziel-Pose-Verteilung gelernt werden. Das zugrundeliegende Prinzip vereint bestehende Ansätze und erinnert an die Aufmerksamkeitsmechanik. EPro-PnP übertrifft signifikant konkurrierende Baselines und schließt die Lücke zwischen PnP-basierten Methoden und den task-spezifischen Spitzenreitern auf den Benchmarks LineMOD 6DoF-Pose-Schätzung und nuScenes 3D-Objekterkennung.