HyperAIHyperAI

Command Palette

Search for a command to run...

Audio2Gestures: Generierung vielfältiger Gesten aus Sprachaudio mit bedingten variationalen Autoencodern

Jing Li Di Kang Wenjie Pei Xuefei Zhe Ying Zhang Zhenyu He Linchao Bao

Zusammenfassung

Die Generierung von Gesprächstgesten aus Sprachaudio ist aufgrund der inhärenten ein-zu-viele-Abbildung zwischen Audio und Körperbewegungen herausfordernd. Herkömmliche CNNs/RNNs gehen von einer ein-zu-eins-Abbildung aus und neigen daher dazu, den Durchschnitt aller möglichen Zielbewegungen vorherzusagen, was während der Inferenz zu eintönigen oder langweiligen Bewegungen führt. Um dieses Problem zu überwinden, schlagen wir einen neuartigen bedingten Variationalen Autoencoder (VAE) vor, der die ein-zu-viele-Audio-zu-Bewegungs-Abbildung explizit modelliert, indem der multimodale Latentcode in einen gemeinsamen Code und einen bewegungsspezifischen Code aufgeteilt wird. Der gemeinsame Code modelliert hauptsächlich die starke Korrelation zwischen Audio und Bewegung (z. B. die synchronisierten Beats von Audio und Bewegung), während der bewegungsspezifische Code vielfältige Bewegungsinformationen erfasst, die unabhängig vom Audio sind. Die Aufteilung des Latentcodes in zwei Teile stellt jedoch erhebliche Herausforderungen für die Trainingsstabilität des VAE-Modells dar. Um dies zu bewältigen, wurde ein Abbildungsnetzwerk entwickelt, das eine zufällige Stichprobenentnahme unterstützt, ergänzt durch weitere Techniken wie eine abgeschwächte Bewegungsverlustfunktion, die Fahrrad-Beschränkung (bicycle constraint) und einen Diversitätsverlust (diversity loss), um das Training des VAE effizienter zu gestalten. Experimente auf sowohl 3D- als auch 2D-Bewegungsdatensätzen bestätigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren realistischere und vielfältigere Bewegungen generiert, sowohl quantitativ als auch qualitativ. Schließlich zeigen wir, dass unsere Methode problemlos eingesetzt werden kann, um Bewegungssequenzen mit vom Benutzer vorgegebenen Bewegungsausschnitten zu einem festgelegten Zeitpunkt im Timeline zu erzeugen. Der Quellcode und weitere Ergebnisse sind unter https://jingli513.github.io/audio2gestures verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Audio2Gestures: Generierung vielfältiger Gesten aus Sprachaudio mit bedingten variationalen Autoencodern | Paper | HyperAI