Die Nutzung des zeitlichen Kontexts für die Schätzung der 3D-Mensch-Posen im Freien

Wir präsentieren einen bundle-adjustment-basierten Algorithmus zur Rekonstruktion genauer 3D-Menschpose und -Netze aus monokularen Videos. Im Gegensatz zu früheren Algorithmen, die auf einzelnen Bildern operieren, zeigen wir, dass die Rekonstruktion einer Person über eine gesamte Sequenz zusätzliche Nebenbedingungen bereitstellt, die Ambiguitäten auflösen können. Dies liegt daran, dass Videos oft mehrere Ansichten einer Person bieten, während sich die allgemeine Körperform nicht ändert und die 3D-Positionen langsam variieren. Unsere Methode verbessert sich nicht nur bei standardmäßigen mocap-basierten Datensätzen wie Human 3.6M – wo wir quantitative Verbesserungen nachweisen – sondern auch bei anspruchsvollen in-the-wild-Datensätzen wie Kinetics. Aufbauend auf unserem Algorithmus stellen wir einen neuen Datensatz vor, der mehr als 3 Millionen Frames von YouTube-Videos aus Kinetics enthält, mit automatisch generierten 3D-Posen und -Netzen. Wir zeigen, dass das erneute Training eines single-frame-3D-Pose-Schätzers anhand dieser Daten sowohl bei realweltlichen als auch bei mocap-Daten die Genauigkeit erhöht, indem wir dies an den Datensätzen 3DPW und HumanEVA evaluieren.