Trajektorienoptimierung für die physikbasierte Rekonstruktion von 3D-Gesten aus monokularen Videos

Wir konzentrieren uns auf die Aufgabe der Schätzung einer physikalisch plausiblen bewegten menschlichen Gestalt aus monokularer Videoaufnahme. Bestehende Ansätze, die Physik nicht berücksichtigen, erzeugen oft zeitlich inkonsistente Ergebnisse mit Bewegungsartefakten, während state-of-the-art-Verfahren, die Physik einbeziehen, entweder nur in kontrollierten Laborbedingungen funktionieren oder vereinfachte Körper-Boden-Kontakte beschränkt auf die Füße betrachten. In diesem Paper untersuchen wir, wie diese Mängel durch die direkte Integration eines voll ausgestatteten Physik-Engines in den Pose-Schätzprozess behoben werden können. Gegeben eine unkontrollierte, reale Szene als Eingabe, schätzt unsere Methode zunächst die Lage der Bodenebene und die Abmessungen des physikalischen Körpermodells. Anschließend wird die physikalische Bewegung durch Durchführung einer Trajektorien-Optimierung rekonstruiert. Der Vorteil unserer Formulierung liegt darin, dass sie sich problemlos auf eine Vielzahl von Szenen mit unterschiedlichen Bodeneigenschaften generalisieren lässt und beliebige Formen von Selbstkontakte sowie Kontakte zwischen dem beweglichen Körper und der Szeneriegeometrie unterstützt. Wir zeigen, dass unsere Methode auf dem Human3.6M-Benchmark wettbewerbsfähige Ergebnisse im Vergleich zu bestehenden physikbasierten Methoden erzielt und gleichzeitig ohne Neutrainings direkt auf komplexere dynamische Bewegungen aus dem AIST-Benchmark sowie auf unkontrollierte Internet-Videos anwendbar ist.