HyperAIHyperAI
il y a 2 mois

MotionGPT : Le Mouvement Humain en tant que Langue Étrangère

Jiang, Biao ; Chen, Xin ; Liu, Wen ; Yu, Jingyi ; Yu, Gang ; Chen, Tao
MotionGPT : Le Mouvement Humain en tant que Langue Étrangère
Résumé

Bien que les progrès des grands modèles de langage pré-entraînés se poursuivent, l'exploration de la construction d'un modèle unifié pour le langage et d'autres données multimodales, telles que le mouvement, reste un défi peu abordé jusqu'à présent. Heureusement, le mouvement humain présente une couplage sémantique similaire au langage humain, souvent perçu comme une forme de langage corporel. En fusionnant les données linguistiques avec des modèles de mouvement à grande échelle, il devient possible d'effectuer une pré-entraîne sur le couple mouvement-langage, ce qui peut améliorer les performances des tâches liées au mouvement. Guidés par cette intuition, nous proposons MotionGPT, un modèle de mouvement-langage unifié, polyvalent et convivial capable de gérer plusieurs tâches pertinentes au mouvement. Plus précisément, nous utilisons la quantification vectorielle discrète pour le mouvement humain et transformons les mouvements 3D en jetons de mouvement (motion tokens), similaire au processus de génération des jetons de mots (word tokens). Sur la base de ce « vocabulaire du mouvement », nous effectuons un modèle de langage sur le couple mouvement-texte d'une manière unifiée, traitant le mouvement humain comme une langue spécifique. De plus, inspirés par l'apprentissage par incitation (prompt learning), nous pré-entraînons MotionGPT avec un mélange de données de mouvement-langage et l'affinons sur des tâches de question-réponse basées sur des incitations (prompts). Des expérimentations approfondies montrent que MotionGPT atteint des performances à l'état de l'art dans plusieurs tâches liées au mouvement, notamment la génération de mouvements guidée par le texte, la légendisation du mouvement (motion captioning), la prédiction du mouvement et l'interpolation du mouvement (motion in-between).