HyperAIHyperAI
vor 4 Monaten

Lernen von 3D menschlichen Dynamiken aus Videos

Kanazawa, Angjoo ; Zhang, Jason Y. ; Felsen, Panna ; Malik, Jitendra
Lernen von 3D menschlichen Dynamiken aus Videos
Abstract

Aus einem Bild einer sich bewegenden Person können wir leicht die 3D-Bewegung der Person in der unmittelbaren Vergangenheit und Zukunft erraten. Dies ist darauf zurückzuführen, dass wir ein mentales Modell der 3D-Menschendynamik besitzen, das wir durch die Beobachtung visueller Sequenzen von sich bewegenden Menschen erworben haben. Wir präsentieren einen Rahmen, der ähnlich eine Darstellung der 3D-Dynamik von Menschen aus Videos lernen kann, indem er Bildmerkmale auf einfache aber effektive Weise zeitlich kodiert. Bei der Testzeit erzeugt die gelernte zeitliche Darstellung aus Videos glatte 3D-Gittervorhersagen. Aus einem einzelnen Bild kann unser Modell sowohl das aktuelle 3D-Gitter als auch dessen 3D-Vergangenheits- und -Zukunftsbewegung rekonstruieren. Unser Ansatz ist so gestaltet, dass er in halbüberwachter Weise aus Videos mit 2D-Pose-Annotierungen lernen kann. Obwohl annotierte Daten stets begrenzt sind, werden täglich Millionen von Videos im Internet hochgeladen. In dieser Arbeit nutzen wir diese internetbasierte Quelle unbekannter Daten, indem wir unser Modell auf unbekannten Videos mit pseudowahren 2D-Posen trainieren, die von einem kommerziell erhältlichen 2D-Pose-Detektor abgeleitet wurden. Unsere Experimente zeigen, dass die Hinzufügung weiterer Videos mit pseudowahren 2D-Posen die Leistungsfähigkeit der 3D-Vorhersage monoton verbessert. Wir evaluieren unser Modell, Human Mesh and Motion Recovery (HMMR), anhand des kürzlich veröffentlichten anspruchsvollen Datensatzes "3D Poses in the Wild" und erreichen dabei den Stand der Technik in der 3D-Vorhersage-Aufgabe ohne jede Feinabstimmung. Die Projektwebsite mit Video, Code und Daten finden Sie unter https://akanazawa.github.io/human_dynamics/.