MotionDiffuse : Génération de mouvements humains pilotée par le texte à l’aide d’un modèle de diffusion

La modélisation du mouvement humain est essentielle pour de nombreuses applications graphiques modernes, qui nécessitent généralement des compétences professionnelles. Afin de supprimer les barrières liées à ces compétences pour les utilisateurs non spécialisés, les méthodes récentes de génération de mouvement permettent de produire directement des mouvements humains à partir de descriptions textuelles naturelles. Toutefois, il reste difficile d’obtenir une génération de mouvements diversifiée et fine à partir de diverses entrées textuelles. Pour résoudre ce problème, nous proposons MotionDiffuse, le premier cadre de génération de mouvements pilotés par texte basé sur un modèle de diffusion, qui présente plusieurs propriétés souhaitables par rapport aux méthodes existantes. 1) Correspondance probabiliste. Contrairement à une correspondance langage-mouvement déterministe, MotionDiffuse génère des mouvements à travers une série d’étapes de débruitage durant lesquelles des variations sont introduites. 2) Synthèse réaliste. MotionDiffuse se distingue par sa capacité à modéliser des distributions de données complexes et à produire des séquences de mouvements vivantes et naturelles. 3) Manipulation multi-niveaux. MotionDiffuse répond à des instructions précises concernant des parties spécifiques du corps, ainsi qu’à des synthèses de mouvements de longueur arbitraire avec des prompts textuels variant dans le temps. Nos expériences montrent que MotionDiffuse surpasse de manière convaincante les méthodes de pointe (SoTA) existantes sur les tâches de génération de mouvements pilotés par texte et de génération de mouvements conditionnés à une action. Une analyse qualitative supplémentaire démontre la capacité de contrôle de MotionDiffuse pour une génération complète et fine des mouvements. Page web : https://mingyuan-zhang.github.io/projects/MotionDiffuse.html