HyperAIHyperAI
vor 2 Monaten

MixSTE: Seq2seq gemischter räumlich-zeitlicher Encoder für die 3D-Pose-Schätzung von Menschen in Videos

Zhang, Jinlu ; Tu, Zhigang ; Yang, Jianyu ; Chen, Yujin ; Yuan, Junsong
MixSTE: Seq2seq gemischter räumlich-zeitlicher Encoder für die 3D-Pose-Schätzung von Menschen in Videos
Abstract

Kürzlich wurden transformer-basierte Lösungen eingeführt, um aus einer 2D-Schlüsselpunktfolge die 3D-Haltung des Menschen zu schätzen. Dabei werden Körpergelenke in allen Bildern global betrachtet, um räumliche und zeitliche Korrelationen zu lernen. Wir beobachten, dass die Bewegungen verschiedener Gelenke erheblich voneinander abweichen. Die bisherigen Methoden können jedoch die feste Korrespondenz zwischen den Bildern für jedes einzelne Gelenk nicht effizient modellieren, was zu einem unzureichenden Lernen der räumlich-zeitlichen Korrelation führt. Wir schlagen MixSTE (Mixed Spatio-Temporal Encoder) vor, der einen zeitlichen Transformer-Block zur getrennten Modellierung der zeitlichen Bewegung jedes Gelenks und einen räumlichen Transformer-Block zum Lernen der räumlichen Korrelation zwischen den Gelenken enthält. Diese beiden Blöcke werden abwechselnd verwendet, um eine bessere Kodierung von räumlich-zeitlichen Merkmalen zu erreichen. Darüber hinaus wird die Netzwerkausgabe von dem zentralen Bild auf alle Bilder des Eingabevideos erweitert, wodurch die Kohärenz zwischen den Eingabe- und Ausgabesequenzen verbessert wird. Umfangreiche Experimente wurden an drei Benchmarks (Human3.6M, MPI-INF-3DHP und HumanEva) durchgeführt. Die Ergebnisse zeigen, dass unser Modell den aktuellen Stand der Technik in Bezug auf P-MPJPE (10,9%) und MPJPE (7,6%) übertrifft. Der Code ist unter https://github.com/JinluZhang1126/MixSTE verfügbar.