Speech2AffectiveGestures: Synthese von Begleitgesten mit generativ adversarischer affektiver Ausdruckslernung

Wir präsentieren ein generatives adversarische Netzwerk zur Synthese von 3D-Gestenfolgen für mitredende oberkörperbasierte Gesten mit angemessenen affektiven Ausdrücken. Unser Netzwerk besteht aus zwei Komponenten: einem Generator, der Gesten aus einem gemeinsamen Embedding-Raum von Merkmalen synthetisiert, die aus dem Eingabesprache und den Seed-Gesten codiert wurden, sowie einem Diskriminator, der zwischen synthetisierten und realen 3D-Gestenfolgen unterscheidet. In unserem Generator nutzen wir Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) und den Texttranskript, die jeweils in separaten Encodern aus der Eingabesprache berechnet werden, um die gewünschten Stimmungen und die damit verbundenen affektiven Hinweise zu lernen. Wir entwerfen einen affektiven Encoder, der mehrskalige räumlich-zeitliche Graphen-Convolutionen verwendet, um 3D-Gestenfolgen in latente, gestenbasierte affektive Merkmale zu transformieren. Dieser affektive Encoder wird sowohl im Generator eingesetzt, um affektive Merkmale aus den Seed-Gesten zu lernen, um die Gestensynthese zu leiten, als auch im Diskriminator, um sicherzustellen, dass die synthetisierten Gesten angemessene affektive Ausdrücke enthalten. Wir führen umfangreiche Evaluierungen auf zwei etablierten Benchmarks für die Gestensynthese aus Sprache durch: dem TED Gesture Dataset und dem GENEA Challenge 2020 Dataset. Im Vergleich zu den besten bestehenden Baselines verbessern wir die mittlere absolute Gelenkabweichung um 10–33 %, die mittlere Beschleunigungsabweichung um 8–58 % und die Fréchet-Gesten-Distanz um 21–34 %. Zudem führen wir eine Benutzerstudie durch und beobachten, dass im Vergleich zu den besten aktuellen Baselines etwa 15,28 % der Teilnehmer unsere synthetisierten Gesten plausibler fanden und etwa 16,32 % der Teilnehmer meinten, die Gesten hätten angemessenere affektive Ausdrücke, die gut mit der Sprache übereinstimmten.