vor 18 Tagen

Jenseits der schwachen Perspektive für die monokulare 3D-Gesten-Schätzung

Imry Kissos, Lior Fritz, Matan Goldman, Omer Meir, Eduard Oks, Mark Kliger

Abstract

Wir betrachten die Aufgabe der Vorhersage von 3D-Gelenkpositionen und -Orientierungen aus einem monokularen Video unter Verwendung des skinned multi-person linear (SMPL)-Modells. Zunächst schätzen wir die 2D-Gelenkpositionen mit einem etablierten Pose-Estimation-Algorithmus. Wir verwenden den SPIN-Algorithmus, um anfängliche Schätzungen für Körperpose, Körperform und Kameraparameter mittels eines tiefen Regressions-Neuralen Netzwerks zu ermitteln. Anschließend folgen wir dem SMPLify-Algorithmus, der diese anfänglichen Parameter erhält und diese optimiert, sodass die aus dem SMPL-Modell abgeleiteten 3D-Gelenkpositionen den beobachteten 2D-Gelenkpositionen entsprechen. Dieser Algorithmus beinhaltet einen Projektionsschritt, bei dem die 3D-Gelenke in die 2D-Bildebene projiziert werden. Der herkömmliche Ansatz basiert auf der Annahme eines schwachen Perspektivmodells, das eine ad-hoc festgelegte Brennweite verwendet. Durch Experimente am 3D Poses in the Wild (3DPW)-Datensatz zeigen wir, dass die Verwendung einer vollständigen Perspektivprojektion mit korrektem Kamerazentrum und einer angenäherten Brennweite zu überzeugenden Ergebnissen führt. Unser Algorithmus erreichte den ersten Platz im 3DPW Challenge, insbesondere hinsichtlich der Genauigkeit der Gelenkorientierung.