il y a 11 jours

AttT2M : Génération de mouvement humain pilotée par le texte avec un mécanisme d’attention multi-perspective

Chongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia

Résumé

La génération de mouvements humains 3D à partir de descriptions textuelles est devenue un axe de recherche majeur ces dernières années. Elle exige que les mouvements générés soient diversifiés, naturels et strictement conformes à la description textuelle. En raison de la nature complexe spatio-temporelle des mouvements humains, ainsi que des difficultés inhérentes à l’apprentissage des relations multimodales entre le texte et le mouvement, la génération de mouvements pilotée par le texte reste un problème difficile. Pour relever ces défis, nous proposons \textbf{AttT2M}, une méthode en deux étapes reposant sur un mécanisme d’attention multi-perspective : \textbf{attention par partie du corps} et \textbf{attention croisant mouvement et texte à l’échelle globale et locale}. La première met l’accent sur la perspective de l’encodage du mouvement, en intégrant un encodeur spatio-temporel par partie du corps dans un VQ-VAE afin d’apprendre un espace latent discret plus expressif. La seconde, quant à elle, adopte une perspective multimodale, visant à modéliser les relations croisées entre texte et mouvement au niveau de la phrase et au niveau du mot. Le mouvement piloté par le texte est finalement généré à l’aide d’un transformateur générateur. Des expériences étendues menées sur les bases HumanML3D et KIT-ML démontrent que notre méthode surpasser les approches les plus avancées actuelles, tant sur le plan qualitatif que quantitatif, tout en permettant une synthèse fine et une génération d’action à mouvement (action2motion). Le code source est disponible à l’adresse suivante : https://github.com/ZcyMonkey/AttT2M