HyperAIHyperAI

Command Palette

Search for a command to run...

AQ-GT: Ein zeitlich ausgerichteter und quantisierter GRU-Transformer für die Synthese von Begleitgesten beim Sprechen

Hendric Voß Stefan Kopp

Zusammenfassung

Die Generierung realistischer und kontextuell relevanter Begleitgesten ist eine herausfordernde, jedoch zunehmend wichtige Aufgabe bei der Entwicklung multimodaler künstlicher Agenten. Vorangegangene Methoden konzentrierten sich darauf, eine direkte Korrespondenz zwischen Darstellungen von Begleitgesten und erzeugten Bewegungen zu lernen, was bei menschlicher Beurteilung oft unrealistische und überzeugende Gesten hervorrief. Wir präsentieren einen Ansatz zur Vortrainierung partieller Gestenfolgen mittels eines generativen adversarialen Netzwerks mit einer Quantisierungspipeline. Die resultierenden Codebuch-Vektoren dienen in unserem Framework sowohl als Eingabe als auch als Ausgabe und bilden die Grundlage für die Generierung und Rekonstruktion von Gesten. Indem wir die Abbildung einer latenten Raumrepräsentation anstelle einer direkten Abbildung auf eine Vektorrepräsentation lernen, ermöglicht dieses Framework die Erzeugung hochrealistischer und ausdrucksstarker Gesten, die menschliche Bewegungsabläufe und Verhaltensweisen eng nachahmen, während gleichzeitig Artefakte im Generierungsprozess vermieden werden. Wir evaluieren unseren Ansatz durch Vergleich mit etablierten Methoden zur Generierung von Begleitgesten sowie mit bestehenden Datensätzen menschlichen Verhaltens. Zudem führen wir eine Ablationsstudie durch, um unsere Ergebnisse zu überprüfen. Die Ergebnisse zeigen, dass unser Ansatz die derzeitige State-of-the-Art-Technik klar übertrifft und teilweise von menschlichen Gesten nicht zu unterscheiden ist. Wir stellen unsere Datenaufbereitungs-Pipeline und das Generierungsframework öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AQ-GT: Ein zeitlich ausgerichteter und quantisierter GRU-Transformer für die Synthese von Begleitgesten beim Sprechen | Paper | HyperAI