il y a 11 jours

Motion Anything : Génération de mouvement à partir de tout type d'entrée

Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley

Résumé

La génération de mouvement conditionnel a fait l’objet d’une étude approfondie en vision par ordinateur, mais deux défis majeurs persistent. Premièrement, bien que les méthodes autoregressives masquées aient récemment surpassé les approches basées sur la diffusion, les modèles de masquage existants manquent d’un mécanisme permettant de prioriser les cadres dynamiques et les parties du corps en fonction des conditions données. Deuxièmement, les méthodes actuelles pour différentes modalités de conditionnement échouent souvent à intégrer efficacement plusieurs modalités, ce qui limite le contrôle et la cohérence du mouvement généré. Pour relever ces défis, nous proposons Motion Anything, un cadre de génération de mouvement multimodal qui introduit une approche de modélisation de masque basée sur l’attention, permettant un contrôle fin dans l’espace et le temps sur les cadres clés et les actions. Notre modèle encode de manière adaptative des conditions multimodales, telles que le texte et la musique, améliorant ainsi le contrôle. En outre, nous introduisons TMD (Text-Music-Dance), un nouveau jeu de données de mouvement composé de 2 153 paires de texte, musique et danse, dont la taille est deux fois supérieure à celle d’AIST++, comblant ainsi un manque critique dans la communauté. Des expériences étendues montrent que Motion Anything dépasse les méthodes de pointe sur plusieurs benchmarks, réalisant une amélioration de 15 % en FID sur HumanML3D et des gains constants de performance sur AIST++ et TMD. Pour en savoir plus, rendez-vous sur notre site projet : https://steve-zeyu-zhang.github.io/MotionAnything