vor 17 Tagen

AQ-GT: Ein zeitlich ausgerichteter und quantisierter GRU-Transformer für die Synthese von Begleitgesten beim Sprechen

Hendric Voß, Stefan Kopp

Abstract

Die Generierung realistischer und kontextuell relevanter Begleitgesten ist eine herausfordernde, jedoch zunehmend wichtige Aufgabe bei der Entwicklung multimodaler künstlicher Agenten. Vorangegangene Methoden konzentrierten sich darauf, eine direkte Korrespondenz zwischen Darstellungen von Begleitgesten und erzeugten Bewegungen zu lernen, was bei menschlicher Beurteilung oft unrealistische und überzeugende Gesten hervorrief. Wir präsentieren einen Ansatz zur Vortrainierung partieller Gestenfolgen mittels eines generativen adversarialen Netzwerks mit einer Quantisierungspipeline. Die resultierenden Codebuch-Vektoren dienen in unserem Framework sowohl als Eingabe als auch als Ausgabe und bilden die Grundlage für die Generierung und Rekonstruktion von Gesten. Indem wir die Abbildung einer latenten Raumrepräsentation anstelle einer direkten Abbildung auf eine Vektorrepräsentation lernen, ermöglicht dieses Framework die Erzeugung hochrealistischer und ausdrucksstarker Gesten, die menschliche Bewegungsabläufe und Verhaltensweisen eng nachahmen, während gleichzeitig Artefakte im Generierungsprozess vermieden werden. Wir evaluieren unseren Ansatz durch Vergleich mit etablierten Methoden zur Generierung von Begleitgesten sowie mit bestehenden Datensätzen menschlichen Verhaltens. Zudem führen wir eine Ablationsstudie durch, um unsere Ergebnisse zu überprüfen. Die Ergebnisse zeigen, dass unser Ansatz die derzeitige State-of-the-Art-Technik klar übertrifft und teilweise von menschlichen Gesten nicht zu unterscheiden ist. Wir stellen unsere Datenaufbereitungs-Pipeline und das Generierungsframework öffentlich zur Verfügung.