Zeitbewusste Verfeinerung für die video-basierte Wiederherstellung von menschlicher Pose und Form

Obwohl in den letzten Jahren erhebliche Fortschritte bei der Wiederherstellung von menschlichen Posen und Formen aus monokularen RGB-Bildern gemacht wurden, bleibt die Erzeugung von 3D-menschlicher Bewegung mit hoher Genauigkeit und zeitlicher Konsistenz aus Videos eine Herausforderung. Bestehende videobasierte Methoden neigen dazu, die menschliche Bewegung aus globalen Bildmerkmalen zu rekonstruieren, was detaillierte Darstellungsmöglichkeiten einschränkt und die Rekonstruktionsgenauigkeit begrenzt. In dieser Arbeit schlagen wir ein zeitbewusstes Verfeinerungsnetzwerk (Temporal-Aware Refining Network, TAR) vor, das gleichzeitig zeitbewusste globale und lokale Bildmerkmale für eine genaue Pose- und Formrekonstruktion untersucht. Zunächst wird ein globaler Transformer-Encoder eingeführt, um temporale globale Merkmale aus statischen Merkmalssequenzen zu extrahieren. Anschließend nimmt ein bidirektionales ConvGRU-Netzwerk die Sequenz hochaufgelöster Merkmalskarten als Eingabe entgegen und gibt temporale lokale Merkmalskarten aus, die eine hohe Auflösung aufrechterhalten und die lokale Bewegung des menschlichen Körpers erfassen. Schließlich aktualisiert ein rekurrentes Verfeinerungsmodul die geschätzten SMPL-Parameter iterativ unter Nutzung sowohl globaler als auch lokaler zeitlicher Informationen, um genaue und flüssige Ergebnisse zu erzielen. Umfangreiche Experimente zeigen, dass unser TAR auf gängigen Benchmarks wie 3DPW, MPI-INF-3DHP und Human3.6M bessere Ergebnisse als bisherige Stand-of-the-Art-Methoden liefert.