vor 17 Tagen

Audio2Gestures: Generierung vielfältiger Gesten aus Sprachaudio mit bedingten variationalen Autoencodern

Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao

Abstract

Die Generierung von Gesprächstgesten aus Sprachaudio ist aufgrund der inhärenten ein-zu-viele-Abbildung zwischen Audio und Körperbewegungen herausfordernd. Herkömmliche CNNs/RNNs gehen von einer ein-zu-eins-Abbildung aus und neigen daher dazu, den Durchschnitt aller möglichen Zielbewegungen vorherzusagen, was während der Inferenz zu eintönigen oder langweiligen Bewegungen führt. Um dieses Problem zu überwinden, schlagen wir einen neuartigen bedingten Variationalen Autoencoder (VAE) vor, der die ein-zu-viele-Audio-zu-Bewegungs-Abbildung explizit modelliert, indem der multimodale Latentcode in einen gemeinsamen Code und einen bewegungsspezifischen Code aufgeteilt wird. Der gemeinsame Code modelliert hauptsächlich die starke Korrelation zwischen Audio und Bewegung (z. B. die synchronisierten Beats von Audio und Bewegung), während der bewegungsspezifische Code vielfältige Bewegungsinformationen erfasst, die unabhängig vom Audio sind. Die Aufteilung des Latentcodes in zwei Teile stellt jedoch erhebliche Herausforderungen für die Trainingsstabilität des VAE-Modells dar. Um dies zu bewältigen, wurde ein Abbildungsnetzwerk entwickelt, das eine zufällige Stichprobenentnahme unterstützt, ergänzt durch weitere Techniken wie eine abgeschwächte Bewegungsverlustfunktion, die Fahrrad-Beschränkung (bicycle constraint) und einen Diversitätsverlust (diversity loss), um das Training des VAE effizienter zu gestalten. Experimente auf sowohl 3D- als auch 2D-Bewegungsdatensätzen bestätigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren realistischere und vielfältigere Bewegungen generiert, sowohl quantitativ als auch qualitativ. Schließlich zeigen wir, dass unsere Methode problemlos eingesetzt werden kann, um Bewegungssequenzen mit vom Benutzer vorgegebenen Bewegungsausschnitten zu einem festgelegten Zeitpunkt im Timeline zu erzeugen. Der Quellcode und weitere Ergebnisse sind unter https://jingli513.github.io/audio2gestures verfügbar.