vor 17 Tagen

Sprach- und Gestengenerierung aus dem trimodalen Kontext aus Text, Audio und Sprecheridentität

Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee, Jaehong Kim, Geehyuk Lee

Abstract

Für menschenähnliche Agenten, einschließlich virtueller Avatare und sozialer Roboter, ist die angemessene Gestik während der Sprache entscheidend für die Interaktion mit Menschen. Co-Speech-Gesten verbessern die Interaktionserfahrung und verleihen den Agenten ein lebendiges Erscheinungsbild. Die Erzeugung menschenähnlicher Gesten ist jedoch aufgrund des mangelnden Verständnisses dafür, wie Menschen gestikulieren, schwierig. Datengestützte Ansätze versuchen, Gestikfähigkeiten aus menschlichen Demonstrationen zu lernen, doch die mehrdeutige und individuelle Natur von Gesten erschwert das Lernen erheblich. In diesem Paper präsentieren wir ein automatisches Modell zur Gestikgenerierung, das den multimodalen Kontext aus Sprachtext, Audio und Sprecheridentität nutzt, um zuverlässig menschenähnliche Gesten zu erzeugen. Durch die Integration eines multimodalen Kontexts und eines adversarialen Trainingsansatzes generiert das vorgeschlagene Modell Gesten, die menschenähnlich sind und mit Inhalt und Rhythmus der Sprache übereinstimmen. Außerdem führen wir eine neue quantitative Bewertungsmetrik für Gestikgenerierungsmodelle ein. Experimente mit der vorgestellten Metrik sowie subjektive menschliche Bewertungen zeigten, dass das vorgeschlagene Modell gegenüber bestehenden End-to-End-Generierungsmodellen überlegen ist. Wir bestätigen weiterhin, dass unser Modell auch mit synthetisierter Audioarbeitet, wenn der Kontext eingeschränkt ist, und zeigen, dass verschiedene Gestikstile für denselben Sprachinhalt erzeugt werden können, indem unterschiedliche Sprecheridentitäten im stilbasierten Embeddingraum verwendet werden, der aus Videos verschiedener Sprecher gelernt wurde. Der gesamte Code und die Daten sind unter https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context verfügbar.