Selbst-bezogene 3D-Mensch-Pose- und Formschätzung aus Videos

Wir betrachten die Aufgabe der Schätzung von 3D-Menschpose und -Form aus Videos. Obwohl bestehende bildbasierte Ansätze erhebliche Fortschritte gemacht haben, werden diese Methoden unabhängig auf jedes Bild angewendet, was oft zu inkonsistenten Vorhersagen führt. In dieser Arbeit präsentieren wir einen videobasierten Lernalgorithmus für die Schätzung von 3D-Menschpose und -Form. Die wesentlichen Erkenntnisse unserer Methode sind zweifach:Erstens, um das Problem inkonsistenter zeitlicher Vorhersagen anzugehen, nutzen wir zeitliche Informationen in Videos und schlagen ein Selbst-Aufmerksamkeitsmodul (self-attention module) vor, das sowohl kurzfristige als auch langfristige Abhängigkeiten zwischen den Bildern berücksichtigt. Dies führt zu zeitlich kohärenten Schätzungen.Zweitens modellieren wir menschliche Bewegung mit einem Vorhersagemodul, das eine glatte Übergangsphase zwischen benachbarten Bildern ermöglicht. Wir evaluieren unsere Methode anhand der Datensätze 3DPW, MPI-INF-3DHP und Human3.6M. Ausführliche experimentelle Ergebnisse zeigen, dass unser Algorithmus sich günstig gegenüber den Stand-der-Technik-Methoden verhält.