Spatio-temporale Tendenz-Reasoning für die Schätzung von Körperhaltung und -form aus Videos

In diesem Paper präsentieren wir ein spatio-temporales Tendenz-Reasoning (STR)-Netzwerk zur Rekonstruktion von menschlicher Körperhaltung und -form aus Videos. Bisherige Ansätze haben sich darauf konzentriert, 3D-Menschen-Datensätze zu erweitern und zeitbasiertes Lernen einzusetzen, um Genauigkeit und zeitliche Glättung zu verbessern. Im Gegensatz dazu zielt unser STR darauf ab, genaue und natürliche Bewegungssequenzen in einer unbeschränkten Umgebung durch die Berücksichtigung von zeitlichen und räumlichen Tendenzen zu lernen, und die spatio-temporalen Merkmale bestehender Videodaten vollständig auszuschöpfen. Dazu lernt unser STR die Merkmale in zeitlicher und räumlicher Dimension jeweils getrennt, um eine robusteren Repräsentation spatio-temporaler Merkmale zu erzielen. Genauer gesagt schlagen wir zunächst ein temporales Tendenz-Reasoning (TTR)-Modul vor, um eine hierarchische Residual-Verbindung in der Zeitdimension innerhalb einer Videosequenz zu konstruieren, um die Tendenzen der zeitlichen Sequenzen effektiv zu erfassen und die wirksame Ausbreitung menschlicher Information zu gewährleisten. Gleichzeitig entwerfen wir ein räumliches Tendenz-Verstärkungs (STE)-Modul, um die Aktivierung von räumlich-frequenzbasierten, zeitlich sensiblen Merkmalen in der Repräsentation menschlicher Bewegung weiter zu verbessern. Schließlich führen wir Integrationsstrategien ein, um die spatio-temporalen Merkmalsrepräsentationen zu integrieren und zu verfeinern. Umfangreiche experimentelle Ergebnisse auf großen öffentlich verfügbaren Datensätzen zeigen, dass unser STR auf drei Datensätzen mit den aktuellen State-of-the-Art-Verfahren wettbewerbsfähig ist. Unser Quellcode ist unter https://github.com/Changboyang/STR.git verfügbar.