Modèle de diffusion du mouvement humain

La génération de mouvements humains naturels et expressifs constitue la « sainte graille » de l’animation par ordinateur. Il s’agit d’une tâche extrêmement complexe, en raison de la diversité des mouvements possibles, de la sensibilité perceptuelle humaine à ces mouvements, ainsi que de la difficulté à les décrire avec précision. Par conséquent, les solutions génératives actuelles sont soit de qualité médiocre, soit limitées en expressivité. Les modèles de diffusion, qui ont déjà démontré des capacités génératives remarquables dans d’autres domaines, apparaissent comme des candidats prometteurs pour la génération de mouvements humains grâce à leur nature « plusieurs-à-plusieurs », mais ils sont souvent gourmands en ressources et difficiles à contrôler. Dans ce papier, nous introduisons Motion Diffusion Model (MDM), un modèle génératif fondé sur la diffusion, soigneusement adapté au domaine du mouvement humain. MDM repose sur une architecture de transformer, intégrant des insights issus de la littérature sur la génération de mouvements. Une caractéristique notable de notre conception réside dans la prédiction de l’échantillon lui-même, plutôt que du bruit, à chaque étape de diffusion. Cette approche facilite l’utilisation de pertes géométriques établies sur les positions et vitesses du mouvement, telles que la perte de contact des pieds. Comme nous le démontrons, MDM est une approche générique, permettant divers modes de conditionnement et plusieurs tâches de génération. Nous montrons que notre modèle peut être entraîné avec des ressources légères tout en atteignant des résultats de pointe sur les principales benchmarks de génération de mouvement à partir de texte (text-to-motion) et d’action (action-to-motion).https://guytevet.github.io/mdm-page/