il y a 11 jours

MMM : Modèle de mouvement masqué génératif

Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen

Résumé

Les avancées récentes dans la génération de mouvements à partir de texte, basées sur des modèles de diffusion et autoregressifs, ont montré des résultats prometteurs. Toutefois, ces modèles souffrent souvent d’un compromis entre performance en temps réel, fidélité élevée et éditabilité du mouvement. Pour combler cet écart, nous introduisons MMM, un nouveau paradigme simple de génération de mouvements fondé sur le Modèle de Mouvement Masqué (Masked Motion Model). MMM se compose de deux composants clés : (1) un tokeniseur de mouvement qui transforme les mouvements humains 3D en une séquence de tokens discrets dans l’espace latent, et (2) un transformateur de mouvement conditionnel masqué qui apprend à prédire des tokens de mouvement aléatoirement masqués, conditionnellement aux tokens de texte pré-calculés. En tenant compte des tokens de mouvement et de texte dans toutes les directions, MMM capture explicitement les dépendances inhérentes entre les tokens de mouvement ainsi que la correspondance sémantique entre les tokens de mouvement et de texte. Lors de l’inférence, cela permet une décodage parallèle et itératif de plusieurs tokens de mouvement, fortement cohérents avec des descriptions textuelles fines, permettant ainsi d’atteindre simultanément une génération de mouvement à haute fidélité et à haute vitesse. En outre, MMM possède une éditabilité intrinsèque du mouvement : en plaçant simplement des tokens masqués à l’endroit à modifier, MMM remplit automatiquement les lacunes tout en garantissant des transitions fluides entre les parties modifiées et non modifiées. Des expériences étendues sur les jeux de données HumanML3D et KIT-ML démontrent que MMM surpasser les méthodes actuelles les plus performantes en matière de génération de mouvements de haute qualité (démontré par des scores FID supérieurs à 0,08 et 0,429), tout en offrant des fonctionnalités avancées d’édition telles que la modification de parties du corps, l’interpolation de mouvements et la synthèse de séquences longues de mouvements. En outre, MMM est deux ordres de grandeur plus rapide sur une seule GPU de gamme moyenne que les modèles de diffusion éditables de mouvement. La page de projet est disponible à l’adresse suivante : \url{https://exitudio.github.io/MMM-page}.