6-freiheitsgradige Objekt-Pose aus semantischen Schlüsselpunkten

Dieses Papier präsentiert einen neuen Ansatz zur Schätzung der kontinuierlichen sechs Freiheitsgrade (6-DoF) Pose (3D-Translation und -Rotation) eines Objekts aus einem einzelnen RGB-Bild. Der Ansatz kombiniert semantische Schlüsselpunkte, die von einem Faltungsnetzwerk (ConvNet) vorhergesagt werden, mit einem deformierbaren Formmodell. Im Gegensatz zu früheren Arbeiten sind wir unabhängig davon, ob das Objekt texturiert oder texturelos ist, da das ConvNet die optimale Darstellung aus den verfügbaren Trainingsbildern lernt. Des Weiteren kann der Ansatz sowohl für instanzbasierte als auch für klassenbasierte Pose-Rekonstruktion angewendet werden. Empirisch zeigen wir, dass der vorgeschlagene Ansatz die 6-DoF-Pose des Objekts in beiden Szenarien – instanzbasiert und klassenbasiert – mit einer klutterigen Hintergrundgenauigkeit schätzen kann. Für die klassenbasierte Objektpose-Schätzung wird eine Stand-der-Technik-Genauigkeit auf dem groß angelegten PASCAL3D+-Datensatz demonstriert.