TM2D : Génération 3D de danse pilotée par la bimodalité via l'intégration musique-texte

Nous proposons une nouvelle tâche visant à générer des mouvements de danse 3D en intégrant simultanément deux modalités : le texte et la musique. Contrairement aux travaux existants qui génèrent des mouvements de danse à partir d’une seule modalité, comme la musique, notre objectif est de produire des mouvements de danse plus riches, guidés par les informations d’instruction fournies par le texte. Toutefois, le manque de données de mouvement appariées incluant à la fois la musique et le texte limite la capacité à générer des mouvements intégrant efficacement les deux modalités. Pour atténuer ce défi, nous proposons d’utiliser un VQ-VAE pour mouvements humains 3D afin de projeter les mouvements des deux jeux de données dans un espace latent composé de vecteurs quantifiés, permettant ainsi de mixer efficacement les tokens de mouvement provenant des deux jeux de données ayant des distributions différentes, au profit de l’entraînement. Par ailleurs, nous introduisons un transformateur cross-modale pour intégrer les instructions textuelles dans l’architecture de génération de mouvements, permettant ainsi de produire des mouvements de danse 3D sans compromettre les performances de la génération conditionnée à la musique. Pour évaluer plus précisément la qualité des mouvements générés, nous introduisons deux métriques novatrices : la Distance de Prédiction du Mouvement (MPD) et le Score de Congélation (FS), qui mesurent respectivement la cohérence et le pourcentage de congélation du mouvement généré. Des expériences étendues montrent que notre approche parvient à générer des mouvements de danse réalistes et cohérents conditionnés à la fois au texte et à la musique, tout en maintenant des performances comparables à celles des méthodes utilisant une seule modalité. Le code source est disponible à l’adresse suivante : https://garfield-kh.github.io/TM2D/.