HyperAIHyperAI
il y a 17 jours

MHFormer : Transformateur à Multi-Hypothèses pour l'Estimation de la Pose 3D Humaine

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
MHFormer : Transformateur à Multi-Hypothèses pour l'Estimation de la Pose 3D Humaine
Résumé

L’estimation des poses 3D humaines à partir de vidéos monoculaires est une tâche difficile en raison de l’ambiguïté de profondeur et des occlusions auto-intrinsèques. La plupart des méthodes existantes tentent de résoudre ces deux problèmes en exploitant les relations spatiales et temporelles. Toutefois, ces approches négligent le fait que ce problème est intrinsèquement inverse, admettant plusieurs solutions plausibles (c’est-à-dire plusieurs hypothèses). Pour surmonter cette limitation, nous proposons un modèle Multi-Hypothesis Transformer (MHFormer), qui apprend des représentations spatio-temporelles de plusieurs hypothèses de pose plausibles. Afin de modéliser efficacement les dépendances entre plusieurs hypothèses et d’établir des relations fortes entre les caractéristiques des différentes hypothèses, notre approche est décomposée en trois étapes : (i) Génération de plusieurs représentations initiales d’hypothèses ; (ii) Modélisation de la communication intra-hypothèse, fusion des différentes hypothèses en une seule représentation convergente, puis partition de cette dernière en plusieurs hypothèses divergentes ; (iii) Apprentissage de la communication inter-hypothèses et agrégation des caractéristiques multi-hypothèses pour synthétiser la pose 3D finale. Grâce à ces processus, la représentation finale est améliorée et la pose synthétisée est nettement plus précise. Des expériences étendues montrent que MHFormer atteint des résultats de pointe sur deux jeux de données exigeants : Human3.6M et MPI-INF-3DHP. Sans recourir à des améliorations supplémentaires (« bells and whistles »), sa performance dépasse celle du meilleur résultat antérieur de plus de 3 % sur Human3.6M. Le code source et les modèles sont disponibles à l’adresse suivante : \url{https://github.com/Vegetebird/MHFormer}.

MHFormer : Transformateur à Multi-Hypothèses pour l'Estimation de la Pose 3D Humaine | Articles de recherche récents | HyperAI