Bailando: 3D-Tanzgenerierung durch Actor-Critic GPT mit choreografischem Gedächtnis

Die Steuerung von 3D-Charakteren, die einem Musikstück folgend tanzen, ist aufgrund der räumlichen Einschränkungen, die durch choreografische Normen auf Pose-Abfolgen auferlegt werden, äußerst herausfordernd. Zudem muss die generierte Tanzsequenz zeitlich konsistent mit unterschiedlichen Musikgenres bleiben. Um diese Herausforderungen zu bewältigen, stellen wir einen neuartigen Musik-zu-Tanz-Framework namens Bailando vor, der zwei leistungsstarke Komponenten enthält: 1) ein choreografisches Gedächtnis, das lernt, bedeutungsvolle Tanzabschnitte aus 3D-Pose-Sequenzen in eine quantisierte Codebook zu komprimieren, und 2) einen Actor-Critic-Generativen Vortrainierten Transformer (GPT), der diese Abschnitte zu einer flüssigen, musikalisch kohärenten Tanzsequenz zusammensetzt. Durch das gelernte choreografische Gedächtnis erfolgt die Tanzgenerierung auf der Ebene der quantisierten Einheiten, die hohen choreografischen Standards entsprechen, wodurch die generierten Tanzsequenzen innerhalb der räumlichen Einschränkungen bleiben. Um eine präzise zeitliche Synchronisation zwischen unterschiedlichen Bewegungstempo und Musikbeats zu erreichen, integrieren wir eine auf Actor-Critic basierende Verstärkungslernmethode in den GPT mit einer neu entwickelten Beat-Align-Belohnungsfunktion. Umfangreiche Experimente auf einem Standard-Benchmark zeigen, dass unser vorgeschlagener Rahmenwerk sowohl qualitativ als auch quantitativ die derzeit beste Leistung erzielt. Insbesondere wird gezeigt, dass das gelernte choreografische Gedächtnis menscheninterpretierbare Tanzstile auf unsupervisierter Basis entdeckt.