Contextueller Gestus: Co-Speech-Gestus-Videogenerierung durch kontextbewusste Gestusdarstellung

Die Generierung von Begleitgesten während der Sprache ist entscheidend für die Erstellung lebensechter Avatare und die Verbesserung der Mensch-Computer-Interaktion, indem Gesten mit der Sprache synchronisiert werden. Trotz neuerer Fortschritte haben bestehende Methoden Schwierigkeiten, die rhythmischen oder semantischen Auslöser aus Audio genau zu erkennen, um kontextuelle Gestenmuster zu generieren und Pixel-Genauigkeit zu erreichen. Um diese Herausforderungen zu bewältigen, stellen wir Contextual Gesture vor – einen Rahmen, der die Generierung von Gesten-Videos im Zusammenhang mit Sprache durch drei innovative Komponenten verbessert: (1) eine chronologische Sprache-Gesten-Ausrichtung, die die beiden Modalitäten zeitlich verknüpft, (2) eine kontextualisierte Gesten-Tokenisierung, die Sprachkontext durch Distillation in die Darstellung von Bewegungsmustern integriert, und (3) ein strukturbewusstes Nachbearbeitungsmodul, das Kantenverbindungen nutzt, um Gesten-Schlüsselpunkte zu verknüpfen und die Video-Generierung zu optimieren. Unsere umfangreichen Experimente zeigen, dass Contextual Gesture nicht nur realistische, sprachsynchrone Gesten-Videos erzeugt, sondern auch die Generierung langer Sequenzen sowie Anwendungen zur Bearbeitung von Gesten-Videos ermöglicht, wie in Abb. 1 dargestellt. Projektseite: https://andypinxinliu.github.io/Contextual-Gesture/.