HyperAIHyperAI
il y a 11 jours

AI Choreographer : Génération 3D de danse conditionnée par la musique avec AIST++

Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
AI Choreographer : Génération 3D de danse conditionnée par la musique avec AIST++
Résumé

Nous présentons AIST++, un nouveau jeu de données multimodal comprenant des mouvements de danse 3D et de la musique, ainsi que FACT, un réseau Transformer cross-modal à attention complète conçu pour générer des mouvements de danse 3D conditionnés par la musique. Le jeu de données AIST++ contient 5,2 heures de mouvements de danse 3D répartis sur 1 408 séquences, couvrant 10 styles de danse différents, accompagnés de vidéos en plusieurs vues dont les poses de caméra sont connues — il s’agit, à notre connaissance, du plus grand jeu de données de ce type. Nous montrons qu’une application naïve de modèles séquentiels tels que les Transformers à ce jeu de données pour la tâche de génération de mouvements 3D conditionnés par la musique ne produit pas de mouvements 3D satisfaisants, mal corrélés avec la musique d’entrée. Nous surmontons ces limitations grâce à des modifications clés dans la conception architecturale et la supervision : le modèle FACT intègre un bloc profond de Transformer cross-modal à attention complète, entraîné pour prédire $N$ étapes futures de mouvement. Nous démontrons empiriquement que ces améliorations sont des facteurs essentiels pour générer des séquences longues de mouvements de danse réalistes, bien synchronisés avec la musique d’entrée. Nous menons des expériences approfondies sur AIST++ incluant des études utilisateurs, où notre méthode surpasser les méthodes de pointe récentes, tant du point de vue qualitatif que quantitatif.

AI Choreographer : Génération 3D de danse conditionnée par la musique avec AIST++ | Articles de recherche récents | HyperAI