Dance Revolution: Langfristige Tanzgenerierung mit Musik mittels Curriculum Learning

Das Tanzen im Takt der Musik ist eine angeborene Fähigkeit des Menschen seit alters her. In der Forschung im Bereich maschinelles Lernen stellt die Synthese von Tanzbewegungen aus Musik jedoch eine herausfordernde Aufgabe dar. Kürzlich haben Forscher menschliche Bewegungssequenzen mittels autoregressiver Modelle wie rekurrenten neuronalen Netzen (RNN) generiert. Ein solcher Ansatz erzeugt jedoch oft nur kurze Sequenzen, da sich Vorhersagefehler, die rückgekoppelt in das neuronale Netzwerk gelangen, akkumulieren. Dieses Problem verschärft sich besonders bei der Generierung langer Bewegungssequenzen. Zudem wird bei der Modellierung bislang noch nicht ausreichend auf die Konsistenz zwischen Tanz und Musik hinsichtlich Stil, Rhythmus und Beat geachtet. In diesem Artikel formulieren wir das musikbedingte Tanzgenerieren als ein Sequence-to-Sequence-Lernproblem und entwickeln eine neuartige Seq2Seq-Architektur, die langen Sequenzen von Musikmerkmalen effizient verarbeiten und die fein abgestimmte Korrespondenz zwischen Musik und Tanz erfassen kann. Darüber hinaus schlagen wir eine innovative Curriculum-Learning-Strategie vor, um die Akkumulation von Fehlern bei autoregressiven Modellen bei der Generierung langer Bewegungssequenzen zu mildern. Dabei wird der Trainingsprozess schrittweise von einer vollständig geleiteten Teacher-Forcing-Schaltung – bei der die vorherigen Ground-Truth-Bewegungen verwendet werden – hin zu einer weniger geleiteten autoregressiven Schaltung überführt, die hauptsächlich die generierten Bewegungen nutzt. Ausführliche Experimente zeigen, dass unser Ansatz die bestehenden State-of-the-Art-Methoden sowohl hinsichtlich automatisierter Metriken als auch in menschlichen Bewertungen deutlich übertrifft. Zudem stellen wir ein Demo-Video zur Demonstration der herausragenden Leistung unseres Ansatzes bereit unter https://www.youtube.com/watch?v=lmE20MEheZ8.