ParCo : Synthèse de Mouvement à partir de Texte par Coordination de Parties

Nous étudions une tâche difficile : la synthèse de mouvements à partir de textes, visant à générer des mouvements alignés avec des descriptions textuelles tout en présentant des mouvements coordonnés. Actuellement, les méthodes basées sur les parties introduisent une partition des parties dans le processus de synthèse pour atteindre une génération à plus fine granularité. Toutefois, ces approches rencontrent des défis tels qu’un manque de coordination entre les mouvements de différentes parties et des difficultés pour les réseaux à comprendre les concepts de parties. En outre, l’introduction de concepts de parties plus fins pose des défis en termes de complexité computationnelle. Dans cet article, nous proposons une méthode appelée ParCo (Part-Coordinating Text-to-Motion Synthesis), dotée de capacités renforcées pour comprendre les mouvements des parties et pour assurer une communication efficace entre les générateurs de mouvements de différentes parties, garantissant ainsi une synthèse de mouvements coordonnée et à haute granularité. Plus précisément, nous discrétisons le mouvement du corps entier en plusieurs mouvements partiels afin d’établir un concept a priori des différentes parties. Ensuite, nous utilisons plusieurs générateurs légers conçus pour synthétiser les mouvements partiels, coordonnés par notre module de coordination des parties. Notre approche obtient des performances supérieures sur des benchmarks courants, avec une consommation computationnelle réduite, notamment sur HumanML3D et KIT-ML, fournissant ainsi des preuves solides de son efficacité. Le code est disponible à l’adresse suivante : https://github.com/qrzou/ParCo.