Command Palette
Search for a command to run...
MoFusion : Un cadre pour la synthèse de mouvement fondée sur la diffusion débruitée
MoFusion : Un cadre pour la synthèse de mouvement fondée sur la diffusion débruitée
Rishabh Dabral Muhammad Hamza Mughal Vladislav Golyanik Christian Theobalt
Résumé
Les méthodes conventionnelles de synthèse du mouvement humain sont soit déterministes, soit peinent à concilier diversité du mouvement et qualité du mouvement. En réponse à ces limitations, nous introduisons MoFusion, un nouveau cadre basé sur la diffusion débruitante pour la synthèse conditionnelle de mouvements humains de haute qualité, capable de générer des séquences longues, temporellement plausibles et sémantiquement précises à partir de divers contextes conditionnels (tels que la musique ou le texte). Nous proposons également une stratégie d’attribution de poids progressive permettant d’introduire des pertes cinématiques bien connues pour garantir la plausibilité du mouvement au sein du cadre de diffusion du mouvement. L’espace latent appris peut être utilisé pour diverses applications d’édition interactive du mouvement — comme l’interpolation, la condition par graine ou l’édition basée sur le texte — offrant ainsi des capacités essentielles pour l’animation de personnages virtuels et la robotique. Grâce à des évaluations quantitatives approfondies et à une étude perceptuelle menée auprès d’utilisateurs, nous démontrons l’efficacité de MoFusion par rapport aux méthodes de pointe sur des benchmarks établis dans la littérature. Nous invitons le lecteur à visionner notre vidéo complémentaire et à consulter https://vcai.mpi-inf.mpg.de/projects/MoFusion.