HyperAIHyperAI

Command Palette

Search for a command to run...

Sprach- und Gestengenerierung aus dem trimodalen Kontext aus Text, Audio und Sprecheridentität

Youngwoo Yoon Bok Cha Joo-Haeng Lee Minsu Jang Jaeyeon Lee Jaehong Kim Geehyuk Lee

Zusammenfassung

Für menschenähnliche Agenten, einschließlich virtueller Avatare und sozialer Roboter, ist die angemessene Gestik während der Sprache entscheidend für die Interaktion mit Menschen. Co-Speech-Gesten verbessern die Interaktionserfahrung und verleihen den Agenten ein lebendiges Erscheinungsbild. Die Erzeugung menschenähnlicher Gesten ist jedoch aufgrund des mangelnden Verständnisses dafür, wie Menschen gestikulieren, schwierig. Datengestützte Ansätze versuchen, Gestikfähigkeiten aus menschlichen Demonstrationen zu lernen, doch die mehrdeutige und individuelle Natur von Gesten erschwert das Lernen erheblich. In diesem Paper präsentieren wir ein automatisches Modell zur Gestikgenerierung, das den multimodalen Kontext aus Sprachtext, Audio und Sprecheridentität nutzt, um zuverlässig menschenähnliche Gesten zu erzeugen. Durch die Integration eines multimodalen Kontexts und eines adversarialen Trainingsansatzes generiert das vorgeschlagene Modell Gesten, die menschenähnlich sind und mit Inhalt und Rhythmus der Sprache übereinstimmen. Außerdem führen wir eine neue quantitative Bewertungsmetrik für Gestikgenerierungsmodelle ein. Experimente mit der vorgestellten Metrik sowie subjektive menschliche Bewertungen zeigten, dass das vorgeschlagene Modell gegenüber bestehenden End-to-End-Generierungsmodellen überlegen ist. Wir bestätigen weiterhin, dass unser Modell auch mit synthetisierter Audioarbeitet, wenn der Kontext eingeschränkt ist, und zeigen, dass verschiedene Gestikstile für denselben Sprachinhalt erzeugt werden können, indem unterschiedliche Sprecheridentitäten im stilbasierten Embeddingraum verwendet werden, der aus Videos verschiedener Sprecher gelernt wurde. Der gesamte Code und die Daten sind unter https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprach- und Gestengenerierung aus dem trimodalen Kontext aus Text, Audio und Sprecheridentität | Paper | HyperAI