Pix2Pose: Pixelweise Koordinatenregression von Objekten für die 6D-Pose-Schätzung

Die Schätzung der 6D-Pose von Objekten allein mit RGB-Bildern bleibt aufgrund von Problemen wie Verdeckungen und Symmetrien herausfordernd. Es ist auch schwierig, 3D-Modelle mit präziser Textur ohne Expertenwissen oder spezialisierte Scannegeräte zu erstellen. Um diese Probleme anzugehen, schlagen wir eine neue Pose-Schätzmethode vor, die als Pix2Pose bezeichnet wird und die 3D-Koordinaten jedes Objekt-Pixels ohne texturierte Modelle vorhersagt. Eine Auto-Encoder-Architektur wurde entwickelt, um die 3D-Koordinaten und erwarteten Fehler pro Pixel zu schätzen. Diese pixelbasierten Vorhersagen werden dann in mehreren Stufen verwendet, um 2D-3D-Zuordnungen zu bilden, um mit dem PnP-Algorithmus (Perspective-n-Point) und RANSAC-Iterationen (RANdom SAmple Consensus) die Posen direkt zu berechnen. Unsere Methode ist gegenüber Verdeckungen robust, indem sie jüngste Fortschritte im generativen adversären Training nutzt, um verdeckte Teile präzise wiederherzustellen. Darüber hinaus wird eine neuartige Verlustfunktion vorgeschlagen, der Transformer-Loss, um symmetrische Objekte durch das Leiten von Vorhersagen zur nächsten symmetrischen Pose zu behandeln. Auswertungen an drei verschiedenen Benchmark-Datensätzen, die symmetrische und verdeckte Objekte enthalten, zeigen, dass unsere Methode den aktuellen Stand der Technik allein mit RGB-Bildern übertrifft.