HyperAIHyperAI
il y a 3 mois

Motion de diffusion : Génération de mouvements 3D humains guidés par le texte à l'aide d'un modèle de diffusion

Zhiyuan Ren, Zhihong Pan, Xin Zhou, Le Kang
Motion de diffusion : Génération de mouvements 3D humains guidés par le texte à l'aide d'un modèle de diffusion
Résumé

Nous proposons une méthode simple et originale pour générer des mouvements 3D humains à partir de phrases complexes en langage naturel, décrivant diverses vitesses, directions et compositions d’actions variées. Contrairement aux méthodes existantes basées sur des architectures génératives classiques, nous appliquons ici un modèle de diffusion débruitant probabiliste (Denoising Diffusion Probabilistic Model) à cette tâche, permettant de synthétiser des résultats de mouvement diversifiés sous la guidance de textes. Le modèle de diffusion transforme un bruit blanc en mouvement 3D structuré via un processus markovien composé d’une série d’étapes de débruitage, et est entraîné efficacement en optimisant une borne inférieure variationnelle. Pour atteindre l’objectif de synthèse d’images conditionnées par le texte, nous utilisons une stratégie de guidance sans classificateur afin d’intégrer les embeddings textuels dans le modèle pendant l’entraînement. Nos expériences démontrent que notre modèle obtient des résultats compétitifs sur le jeu de test HumanML3D, à la fois quantitativement et qualitativement, en produisant des exemples plus naturels visuellement et plus diversifiés. Nous montrons également, par des expérimentations, que notre modèle est capable de générer des mouvements de manière zéro-shot pour des instructions textuelles inédites.