MixSTE : Encodeur mixte spatio-temporel Seq2seq pour l’estimation de la posture humaine 3D dans les vidéos

Des solutions récentes basées sur les transformateurs ont été introduites pour estimer la posture humaine en 3D à partir d'une séquence de points clés en 2D, en prenant en compte les articulations corporelles dans toutes les images pour apprendre la corrélation spatio-temporelle. Nous observons que les mouvements des différentes articulations varient considérablement. Cependant, les méthodes précédentes ne peuvent pas modéliser efficacement la correspondance inter-images solide de chaque articulation, ce qui entraîne un apprentissage insuffisant de la corrélation spatio-temporelle. Nous proposons MixSTE (Mixed Spatio-Temporal Encoder), qui dispose d'un bloc de transformateur temporel pour modéliser séparément le mouvement temporel de chaque articulation et d'un bloc de transformateur spatial pour apprendre la corrélation spatiale inter-articulaire. Ces deux blocs sont utilisés alternativement afin d'obtenir une meilleure encodage des caractéristiques spatio-temporelles. De plus, la sortie du réseau est étendue de l'image centrale à l'ensemble des images de la vidéo d'entrée, améliorant ainsi la cohérence entre les séquences d'entrée et de sortie. Des expériences approfondies ont été menées sur trois benchmarks (Human3.6M, MPI-INF-3DHP et HumanEva). Les résultats montrent que notre modèle surpassent l'approche state-of-the-art avec une amélioration de 10,9 % en P-MPJPE et 7,6 % en MPJPE. Le code est disponible à l'adresse suivante : https://github.com/JinluZhang1126/MixSTE.