HyperAIHyperAI
vor 2 Monaten

GestureLSM: Latent-Kurzschluss-basierte Generierung von Co-Sprach-Gesten mit räumlich-zeitlicher Modellierung

Liu, Pinxin ; Song, Luchuan ; Huang, Junhua ; Liu, Haiyang ; Xu, Chenliang
GestureLSM: Latent-Kurzschluss-basierte Generierung von Co-Sprach-Gesten mit räumlich-zeitlicher Modellierung
Abstract

Die Generierung von vollen Körpergesten auf der Grundlage von Sprachsignalen bleibt sowohl in Bezug auf Qualität als auch auf Geschwindigkeit eine Herausforderung. Bestehende Ansätze modellieren verschiedene Körperteile wie Oberkörper, Beine und Hände getrennt voneinander, was dazu führt, dass die räumlichen Wechselwirkungen zwischen ihnen nicht erfasst werden und sich dadurch un Natürlichkeit und unkoordinierte Bewegungen ergeben. Zudem zeigen ihre autoregressiven/diffusionsbasierten Pipelines wegen der zahlreichen Inferenzschritte eine langsame Generierungsgeschwindigkeit. Um diese beiden Herausforderungen zu bewältigen, schlagen wir GestureLSM vor, einen flussbasierenden Ansatz für die Co-Speech-Gestenerzeugung mit räumlich-zeitlicher Modellierung. Unser Verfahren i) modelliert die Interaktion der tokenisierten Körperteile explizit durch räumliche und zeitliche Aufmerksamkeit, um kohärente volle Körpergesten zu generieren. ii) führt den Flussabgleich ein, um durch das explizite Modellieren des latenten Geschwindigkeitsraums eine effizientere Stichprobenziehung zu ermöglichen. Um die suboptimale Leistung des Flussabgleich-Baselines zu überwinden, schlagen wir während des Trainings latente Abkürzungen (latent shortcut learning) und Beta-Verteilungs-Zeitstempel-Stichprobenziehung (beta distribution time stamp sampling) vor, um die Gestensynthese-Qualität zu verbessern und die Inferenz zu beschleunigen. Durch die Kombination von räumlich-zeitlicher Modellierung und einem verbesserten flussbasierten Framework erreicht GestureLSM den aktuellen Stand der Technik (state-of-the-art performance) auf BEAT2 und reduziert gleichzeitig im Vergleich zu bestehenden Methoden erheblich die Inferenzzeit, was sein Potenzial zur Verbesserung digitaler Menschen und verkörperter Agenten in realen Anwendungen unterstreicht.Projektseite: https://andypinxinliu.github.io/GestureLSM