HyperAIHyperAI
il y a 16 jours

FineMoGen : Génération et édition de mouvement spatio-temporel à granularité fine

Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu
FineMoGen : Génération et édition de mouvement spatio-temporel à granularité fine
Résumé

La génération de mouvement pilotée par le texte a connu des progrès considérables avec l'émergence des modèles de diffusion. Toutefois, les méthodes existantes peinent encore à générer des séquences de mouvement complexes correspondant à des descriptions fines, décrivant des actions spatio-temporelles détaillées et précises. Ce manque de contrôle fin limite l'accessibilité de la génération de mouvement à un public plus large. Pour relever ces défis, nous proposons FineMoGen, un cadre de génération et d'édition de mouvement basé sur les modèles de diffusion, capable de synthétiser des mouvements fins en s'appuyant sur des instructions spatiales et temporelles. Plus précisément, FineMoGen repose sur un modèle de diffusion intégrant une nouvelle architecture transformer appelée Attention Mixte Spatio-Temporelle (SAMI). SAMI optimise la génération du modèle d'attention globale selon deux axes : 1) modélisation explicite des contraintes de composition spatio-temporelle ; et 2) utilisation d'un mélange d'experts à activation sparse pour extraire de manière adaptative des caractéristiques fines. Afin de faciliter une étude à grande échelle sur cette nouvelle tâche de génération de mouvement à fort niveau de détail, nous introduisons le jeu de données HuMMan-MoGen, composé de 2 968 vidéos et de 102 336 descriptions spatio-temporelles fines. Des expériences étendues montrent que FineMoGen atteint une qualité de génération de mouvement supérieure à celle des méthodes de pointe. Notamment, FineMoGen permet également des capacités d’édition de mouvement zéro-shot grâce à l’assistance de modèles linguistiques massifs (LLM), permettant ainsi de manipuler fidèlement les séquences de mouvement à l’aide d’instructions précises. Page du projet : https://mingyuan-zhang.github.io/projects/FineMoGen.html