DeepIM: Tiefes iteratives Matching für die 6D-Pose-Schätzung

Die Schätzung der 6D-Pose von Objekten aus Bildern ist ein wichtiges Problem in verschiedenen Anwendungen wie Robotermanipulation und Virtual Reality. Während die direkte Regression von Bildern zu Objekt-Posen eine begrenzte Genauigkeit aufweist, kann das Abgleichen gerenderten Bilder eines Objekts mit dem beobachteten Bild genaue Ergebnisse liefern. In dieser Arbeit schlagen wir ein neues tiefes neuronales Netzwerk für die 6D-Pose-Abgleichung vor, das DeepIM (Deep Iterative Matching) genannt wird. Gegeben eine initiale Pose-Schätzung, ist unser Netzwerk in der Lage, die Pose durch das Abgleichen des gerenderten Bilds mit dem beobachteten Bild iterativ zu verfeinern. Das Netzwerk wird trainiert, um eine relative Pose-Transformation unter Verwendung einer entwirrten Darstellung der 3D-Position und der 3D-Orientierung sowie einem iterativen Trainingsprozess vorherzusagen. Experimente an zwei gängigen Benchmarks für die 6D-Pose-Schätzung zeigen, dass DeepIM erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Methoden erzielt. Wir demonstrieren zudem, dass DeepIM in der Lage ist, bisher unbekannte Objekte abzugleichen.