GUESS : GradUally Enriching SyntheSis pour la génération de mouvements humains pilotée par le texte

Dans cet article, nous proposons un nouveau cadre génératif fondé sur la diffusion en cascade pour la synthèse de mouvements humains pilotée par le texte, exploitant une stratégie nommée GradUally Enriching SyntheSis (GUESS, abréviation). Cette stratégie consiste à définir des objectifs de génération en regroupant les articulations du squelette détaillé selon leur proximité sémantique, puis à remplacer chaque groupe d'articulations par un unique nœud correspondant à une partie du corps. Cette opération abstrait de manière récursive la posture humaine vers des squelettes de plus en plus grossiers à plusieurs niveaux de granularité. En augmentant progressivement le niveau d'abstraction, le mouvement humain devient de plus en plus concis et stable, offrant ainsi un avantage significatif pour la tâche de synthèse de mouvement multimodale. Le problème global de synthèse de mouvement humain pilotée par le texte est alors décomposé en plusieurs niveaux d'abstraction et résolu à l'aide d'un cadre de génération multi-étapes basé sur un modèle de diffusion latente en cascade : un générateur initial produit d'abord une estimation grossière du mouvement humain à partir d'une description textuelle ; ensuite, une série de générateurs successifs enrichit progressivement les détails du mouvement en s'appuyant à la fois sur la description textuelle et sur les résultats précédemment synthétisés. Notamment, nous intégrons davantage GUESS à un mécanisme dynamique de fusion multi-conditions proposé, permettant d'équilibrer dynamiquement les effets coopératifs entre la condition textuelle fournie et l'indice de mouvement grossier synthétisé à différentes étapes de génération. Des expériences étendues sur de grands jeux de données montrent que GUESS surpasser largement les méthodes les plus avancées existantes en termes de précision, de réalisme et de diversité. Le code est disponible à l'adresse suivante : https://github.com/Xuehao-Gao/GUESS.