HyperAIHyperAI

Command Palette

Search for a command to run...

TM2D : Génération 3D de danse pilotée par la bimodalité via l'intégration musique-texte

Kehong Gong Dongze Lian Heng Chang Chuan Guo Zihang Jiang Xinxin Zuo Michael Bi Mi Xinchao Wang

Résumé

Nous proposons une nouvelle tâche visant à générer des mouvements de danse 3D en intégrant simultanément deux modalités : le texte et la musique. Contrairement aux travaux existants qui génèrent des mouvements de danse à partir d’une seule modalité, comme la musique, notre objectif est de produire des mouvements de danse plus riches, guidés par les informations d’instruction fournies par le texte. Toutefois, le manque de données de mouvement appariées incluant à la fois la musique et le texte limite la capacité à générer des mouvements intégrant efficacement les deux modalités. Pour atténuer ce défi, nous proposons d’utiliser un VQ-VAE pour mouvements humains 3D afin de projeter les mouvements des deux jeux de données dans un espace latent composé de vecteurs quantifiés, permettant ainsi de mixer efficacement les tokens de mouvement provenant des deux jeux de données ayant des distributions différentes, au profit de l’entraînement. Par ailleurs, nous introduisons un transformateur cross-modale pour intégrer les instructions textuelles dans l’architecture de génération de mouvements, permettant ainsi de produire des mouvements de danse 3D sans compromettre les performances de la génération conditionnée à la musique. Pour évaluer plus précisément la qualité des mouvements générés, nous introduisons deux métriques novatrices : la Distance de Prédiction du Mouvement (MPD) et le Score de Congélation (FS), qui mesurent respectivement la cohérence et le pourcentage de congélation du mouvement généré. Des expériences étendues montrent que notre approche parvient à générer des mouvements de danse réalistes et cohérents conditionnés à la fois au texte et à la musique, tout en maintenant des performances comparables à celles des méthodes utilisant une seule modalité. Le code source est disponible à l’adresse suivante : https://garfield-kh.github.io/TM2D/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp