Das Lernen der 3D-Menschlichen-Pose aus Struktur und Bewegung

Die Schätzung der 3D-Pose eines Menschen aus einem einzelnen Bild ist ein herausforderndes Problem, insbesondere für reale Szenarien aufgrund des Mangels an 3D-annotierten Daten. Wir schlagen zwei anatomisch inspirierte Verlustfunktionen vor und verwenden sie in einem schwach überwachten Lernframework, um gemeinsam aus umfangreichen 2D-Daten im Freien und 3D-Daten (indoor/synthetic) zu lernen. Darüber hinaus stellen wir ein einfaches zeitliches Netzwerk vor, das zeitliche und strukturelle Hinweise in den vorhergesagten Pose-Sequenzen nutzt, um die Pose-Schätzungen zeitlich zu harmonisieren. Wir analysieren die vorgeschlagenen Beiträge sorgfältig durch Visualisierungen der Verlustoberfläche und Sensitivitätsanalyse, um ein tieferes Verständnis ihrer Funktionsweise zu fördern. Unser vollständiger Pipeline verbessert den Stand der Technik um 11,8 % und 12 % auf Human3.6M und MPI-INF-3DHP respektive und läuft mit 30 FPS auf einer gängigen Grafikkarte.