3D-Human-Pose-Schätzung unter Verwendung von Faltungsneuronalen Netzen mit 2D-Pose-Informationen

Während es bei der 2D-Pose-Schätzung von Menschen mit Faltungsneuronalen Netzen (CNNs) zu Erfolgen gekommen ist, wurde die 3D-Pose-Schätzung noch nicht ausreichend untersucht. In dieser Arbeit befassen wir uns mit der Aufgabe der 3D-Pose-Schätzung durch end-to-end-Lernen unter Verwendung von CNNs. Die relativen 3D-Positionen zwischen einem Gelenk und den anderen Gelenken werden durch CNNs gelernt. Das vorgeschlagene Verfahren verbessert die Leistungsfähigkeit von CNNs durch zwei neuartige Ideen. Erstens fügen wir 2D-Pose-Informationen hinzu, um eine 3D-Pose aus einem Bild zu schätzen, indem wir das Ergebnis der 2D-Pose-Schätzung mit den Merkmalen des Bildes verketten. Zweitens haben wir festgestellt, dass genauere 3D-Posen durch die Kombination von Informationen über relative Positionen bezüglich mehrerer Gelenke erzielt werden können, anstatt nur eines Wurzelgelenks. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren vergleichbare Leistungen wie die Stand-of-the-Art-Methoden auf dem Human 3.6M-Datensatz erzielt.