SO-Pose: Ausnutzung von Selbstverdeckung zur direkten Schätzung der 6D-Pose

Die direkte Schätzung aller sechs Freiheitsgrade (6DoF) der Objektpose – bestehend aus 3D-Drehung und Translation – in einer stark besetzten Umgebung anhand eines einzigen RGB-Bildes stellt eine herausfordernde Aufgabe dar. Obwohl end-to-end-Methoden in jüngster Zeit vielversprechende Ergebnisse mit hoher Effizienz erzielt haben, bleiben sie hinsichtlich der Posegenauigkeit weiterhin hinter aufwändigen PnP/RANSAC-basierten Ansätzen zurück. In dieser Arbeit beheben wir diesen Mangel durch eine neuartige Reasoning-Strategie bezüglich Selbstverdeckung, um eine zweischichtige Darstellung dreidimensionaler Objekte zu etablieren, die die Genauigkeit der end-to-end-6D-Pose-Schätzung erheblich verbessert. Unser Framework, SO-Pose, verarbeitet ein einzelnes RGB-Bild als Eingabe und generiert jeweils 2D-3D-Zuordnungen sowie Selbstverdeckungsinformationen mittels eines gemeinsamen Encoders und zweier getrennter Decoders. Beide Ausgaben werden anschließend fusioniert, um direkt die 6DoF-Poseparameter zu regressive. Durch die Integration von Cross-Layer-Konsistenzen, die Zuordnungen, Selbstverdeckung und 6D-Pose miteinander ausrichten, erreichen wir eine weitere Steigerung von Genauigkeit und Robustheit und übertreffen oder konkurrieren mit allen anderen aktuellen State-of-the-Art-Verfahren auf verschiedenen anspruchsvollen Datensätzen.