TM2D: Bimodalitätsgetriebene 3D-Tanzgenerierung durch Musik-Text-Integration

Wir schlagen eine neue Aufgabe zur Generierung von 3D-Tanzbewegungen vor, die gleichzeitig Text- und Musikmodalitäten integrieren. Im Gegensatz zu bestehenden Ansätzen, die Tanzbewegungen allein auf Basis einer einzigen Modalität wie Musik generieren, zielen wir darauf ab, reichhaltigere Tanzbewegungen zu erzeugen, die durch die instruktiven Informationen im Text geleitet werden. Die begrenzte Verfügbarkeit von gepaarten Bewegungsdatensätzen, die sowohl Musik- als auch Textinformationen enthalten, erschwert jedoch die Erzeugung von Tanzbewegungen, die beide Modalitäten effektiv kombinieren. Um dieses Problem zu mildern, schlagen wir vor, einen 3D-Menschenbewegungs-VQ-VAE zu nutzen, um die Bewegungen zweier Datensätze in einen latenten Raum zu projizieren, der aus quantisierten Vektoren besteht. Dadurch werden die Bewegungstoken beider Datensätze mit unterschiedlichen Verteilungen effektiv gemischt, um das Training zu unterstützen. Zudem stellen wir einen cross-modalen Transformer vor, der es ermöglicht, Textanweisungen nahtlos in die Bewegungsgenerierungsarchitektur zu integrieren, ohne die Leistungsfähigkeit der musikbedingten Tanzgenerierung zu beeinträchtigen. Um die Qualität der generierten Bewegungen besser bewerten zu können, führen wir zwei neue Metriken ein: den Motion Prediction Distance (MPD) zur Messung der Kohärenz und den Freezing Score (FS) zur Quantifizierung des Anteils an „Einfrieren“ der Bewegung. Umfangreiche Experimente zeigen, dass unser Ansatz in der Lage ist, realistische und kohärente 3D-Tanzbewegungen sowohl unter text- als auch unter musikalischer Bedingung zu erzeugen, wobei die Leistung mit den beiden Einzelmodalitäten vergleichbar bleibt. Der Quellcode ist unter https://garfield-kh.github.io/TM2D/ verfügbar.