3D-Mensch-Pose-Schätzung in Videos mit zeitlichen Faltungen und semi-überwachtem Training

In dieser Arbeit zeigen wir, dass 3D-Posen in Videos mit einem voll konvolutionellen Modell effektiv geschätzt werden können, das auf verdünnten zeitlichen Konvolutionen über 2D-Schlüsselpunkte basiert. Wir stellen zudem die Rückprojektion vor, eine einfache und effektive semi-überwachte Trainingsmethode, die unlabeledes Videomaterial nutzt. Wir beginnen mit vorhergesagten 2D-Schlüsselpunkten für unlabeledes Video, schätzen dann die 3D-Posen und führen abschließend eine Rückprojektion zu den Eingabe-2D-Schlüsselpunkten durch. Im überwachten Szenario übertreffen unsere voll konvolutionellen Modelle das bisher beste Ergebnis aus der Literatur um 6 mm mittlerer pro-Gelenk Positionsfehler auf Human3.6M, was einer Fehlerreduzierung von 11 % entspricht. Das Modell zeigt außerdem erhebliche Verbesserungen auf HumanEva-I. Darüber hinaus zeigen Experimente mit der Rückprojektion, dass sie in semi-überwachten Szenarien, in denen labeledes Datenmaterial knapp ist, komfortabel die bisher besten Ergebnisse aus der Forschung übertrifft. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/VideoPose3D verfügbar.