HyperAIHyperAI
il y a 11 jours

MoMask : Modélisation Masquée Générative de Mouvements Humains 3D

Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
MoMask : Modélisation Masquée Générative de Mouvements Humains 3D
Résumé

Nous introduisons MoMask, un nouveau cadre de modélisation masquée pour la génération de mouvements humains 3D à partir de textes. Dans MoMask, un schéma de quantification hiérarchique est employé pour représenter les mouvements humains sous la forme de jetons de mouvement discrets multi-couches, offrant des détails de haute fidélité. À la couche de base, une séquence de jetons de mouvement est obtenue par quantification vectorielle ; les jetons résiduels d’ordres croissants sont ensuite dérivés et stockés aux couches suivantes de la hiérarchie. Cette structure est ensuite suivie par deux transformateurs bidirectionnels distincts. Pour les jetons de mouvement de la couche de base, un transformateur masqué est utilisé pour prédire les jetons de mouvement aléatoirement masqués, conditionnés à l’entrée textuelle durant l’étape d’entraînement. Pendant l’étape de génération (c’est-à-dire d’inférence), en partant d’une séquence vide, notre transformateur masqué remplit itérativement les jetons manquants ; par la suite, un transformateur résiduel apprend progressivement à prédire les jetons de la couche suivante à partir des résultats de la couche courante. Des expériences étendues montrent que MoMask surpasser les méthodes de pointe sur la tâche de génération de mouvement à partir de texte, avec un FID de 0,045 (contre par exemple 0,141 pour T2M-GPT) sur le jeu de données HumanML3D, et de 0,228 (contre 0,514) sur KIT-ML, respectivement. MoMask peut également être appliqué de manière transparente à des tâches connexes sans nécessiter de fine-tuning supplémentaire du modèle, telles que l’imputation temporelle guidée par texte.

MoMask : Modélisation Masquée Générative de Mouvements Humains 3D | Articles de recherche récents | HyperAI