HyperAIHyperAI
il y a 16 jours

Dance Revolution : Génération à long terme de danse musicale par apprentissage par curriculums

Ruozi Huang, Huang Hu, Wei Wu, Kei Sawada, Mi Zhang, Daxin Jiang
Dance Revolution : Génération à long terme de danse musicale par apprentissage par curriculums
Résumé

La danse au rythme de la musique est une capacité innée de l’être humain depuis des temps anciens. Toutefois, dans le domaine de la recherche en apprentissage automatique, la synthèse de mouvements de danse à partir de musique demeure un problème complexe. Récemment, les chercheurs ont exploité des modèles autoregressifs, tels que les réseaux de neurones récurrents (RNN), pour générer des séquences de mouvements humains. Cette approche produit généralement des séquences courtes, en raison de l’accumulation des erreurs de prédiction qui sont réinjectées dans le réseau neuronal. Ce problème s’aggrave considérablement lors de la génération de séquences longues. Par ailleurs, la cohérence entre la danse et la musique, en termes de style, de rythme et de battement, n’est pas suffisamment prise en compte dans les modèles actuels. Dans cet article, nous formulons la génération de danse conditionnée à la musique comme un problème d’apprentissage séquence-à-séquence, et proposons une nouvelle architecture seq2seq capable de traiter efficacement de longues séquences d’éléments musicaux tout en capturant les correspondances fines entre la musique et la danse. En outre, nous introduisons une nouvelle stratégie d’apprentissage par curriculum afin de réduire l’accumulation d’erreurs dans les modèles autoregressifs lors de la génération de séquences longues. Cette stratégie adapte progressivement le processus d’entraînement, passant d’un schéma entièrement guidé par le « teacher forcing » utilisant les vérités terrain des mouvements précédents, vers un schéma moins guidé, principalement basé sur les mouvements générés. Des expériences étendues montrent que notre méthode surpasse significativement les états de l’art existants selon des métriques automatiques et des évaluations humaines. Nous avons également publié une démonstration vidéo illustrant les performances supérieures de notre approche à l’adresse suivante : https://www.youtube.com/watch?v=lmE20MEheZ8.