Modélisation globale-locale pour l'estimation de la pose et de la forme humaines en 3D basée sur vidéo

Les estimations de la posture et de la forme humaine en 3D basées sur des vidéos sont évaluées par la précision intra-image et la fluidité inter-images. Bien que ces deux métriques soient responsables de différents aspects de la cohérence temporelle, les méthodes actuelles de pointe les traitent comme un problème unifié et utilisent des structures de modélisation monotones (par exemple, RNN ou blocs basés sur l'attention) pour concevoir leurs réseaux. Cependant, l'utilisation d'une seule structure de modélisation rend difficile l'équilibre entre l'apprentissage des corrélations temporelles à court et à long terme, et peut biaiser le réseau vers l'un d'eux, entraînant des prédictions indésirables telles que des décalages globaux de position, une incohérence temporelle et une insuffisance de détails locaux.Pour résoudre ces problèmes, nous proposons de découpler structurellement la modélisation des corrélations à long et à court terme dans un cadre end-to-end, appelé Global-to-Local Transformer (GLoT). Premièrement, un transformateur global est introduit avec une stratégie d'Estimation Masquée de la Posture et de la Forme pour la modélisation à long terme. Cette stratégie incite le transformateur global à apprendre davantage de corrélations inter-images en masquant aléatoirement les caractéristiques de plusieurs images. Deuxièmement, un transformateur local est chargé d'exploiter les détails locaux sur le maillage humain et d'interagir avec le transformateur global grâce à l'attention croisée.De plus, un Régresseur Hiérarchique de Corrélation Spatiale est introduit pour affiner les estimations intra-image par une représentation globale-locale découpée et des contraintes cinématiques implicites. Notre GLoT dépasse les méthodes précédentes de pointe avec le nombre le plus faible de paramètres du modèle sur des benchmarks populaires tels que 3DPW, MPI-INF-3DHP et Human3.6M. Les codes sources sont disponibles sur https://github.com/sxl142/GLoT.