HyperAIHyperAI
il y a 11 jours

MCM : Cadre de synthèse de mouvement multi-conditions

Zeyu Ling, Bo Han, Yongkang Wongkan, Han Lin, Mohan Kankanhalli, Weidong Geng
MCM : Cadre de synthèse de mouvement multi-conditions
Résumé

La synthèse conditionnelle du mouvement humain (HMS) vise à générer des séquences de mouvement humain conformes à des conditions spécifiques. Le texte et l'audio représentent les deux modalités prédominantes utilisées comme conditions de contrôle dans le cadre de l'HMS. Alors que les recherches existantes se concentrent principalement sur des conditions uniques, la synthèse du mouvement humain multi-conditionnelle reste largement sous-exploree. Dans cette étude, nous proposons un cadre d'HMS multi-conditionnelle, nommé MCM, basé sur une architecture à double branche composée d'un branche principale et d'une branche de contrôle. Ce cadre étend efficacement l'applicabilité du modèle à diffusion, initialement conçu uniquement pour des conditions textuelles, aux conditions audio. Cette extension couvre à la fois la transformation musique-vers-danse et la synthèse du mouvement associé à la parole (co-speech HMS), tout en préservant la qualité intrinsèque du mouvement et les capacités d'association sémantique inhérentes au modèle original. En outre, nous proposons l’implémentation d’un modèle à diffusion basé sur le Transformer, désigné MWNet, comme branche principale. Ce modèle maîtrise habilement les complexités spatiales et les corrélations inter-jointes présentes dans les séquences de mouvement, grâce à l’intégration de modules d’attention auto-multipleine. Des expériences étendues montrent que notre méthode atteint des résultats compétitifs sur des tâches d’HMS à condition unique comme à condition multiple.