CanonPose: Selbstüberwachte monokulare 3D-Pose-Schätzung im Freien

Die Schätzung der menschlichen Pose aus einzelnen Bildern ist ein anspruchsvolles Problem in der Computer Vision, das große Mengen an beschrifteten Trainingsdaten erfordert, um es genauer zu lösen. Leider gibt es für viele menschliche Aktivitäten (z. B. Outdoor-Sportarten) keine solchen Trainingsdaten, und deren Erhebung mit traditionellen Bewegungserfassungssystemen ist schwierig oder sogar unmöglich. Wir schlagen einen selbstüberwachten Ansatz vor, der einen 3D-Pose-Schätzer aus unbeschrifteten multiview-Daten lernt. Dazu nutzen wir Multiview-Konsistenzbedingungen, um die beobachtete 2D-Pose in die zugrunde liegende 3D-Pose und die Kameradrehung zu trennen. Im Gegensatz zu den meisten bestehenden Methoden benötigen wir keine kalibrierten Kameras und können daher auch von beweglichen Kameras lernen. Dennoch präsentieren wir im Falle einer statischen Kameraaufstellung eine optionale Erweiterung, um konstante relative Kameradrehungen über mehrere Ansichten in unser Framework einzubeziehen. Schlüssel zum Erfolg sind neue, unverzerrte Rekonstruktionsziele, die Informationen über verschiedene Ansichten und Trainingsbeispiele mischen. Der vorgeschlagene Ansatz wird anhand zweier Benchmark-Datensätze (Human3.6M und MPII-INF-3DHP) sowie des realweltbezogenen SkiPose-Datensatzes evaluiert.