HyperAIHyperAI
il y a 2 mois

GestureLSM : Génération de gestes paralinguistiques basée sur des raccourcis latents avec modélisation spatio-temporelle

Liu, Pinxin ; Song, Luchuan ; Huang, Junhua ; Liu, Haiyang ; Xu, Chenliang
GestureLSM : Génération de gestes paralinguistiques basée sur des raccourcis latents avec modélisation spatio-temporelle
Résumé

La génération de gestes corporels complets à partir de signaux vocaux reste un défi en termes de qualité et de rapidité. Les approches existantes modélisent différentes régions du corps, telles que le tronc, les jambes et les mains, séparément, ce qui ne permet pas de capturer les interactions spatiales entre elles et entraîne des mouvements peu naturels et disjoints. De plus, leurs pipelines basés sur des modèles autorégressifs ou par diffusion montrent une vitesse de génération lente en raison des nombreuses étapes d'inférence nécessaires. Pour relever ces deux défis, nous proposons GestureLSM, une approche basée sur l'appariement de flux pour la génération de gestes co-verbales avec une modélisation spatio-temporelle. Notre méthode i) modèle explicitement l'interaction entre les régions corporelles tokenisées grâce à l'attention spatiale et temporelle, afin de générer des gestes corporels cohérents. ii) introduit l'appariement de flux pour permettre un échantillonnage plus efficace en modélisant explicitement l'espace de vitesse latente. Pour surmonter les performances sous-optimales d'une base d'appariement de flux, nous proposons l'apprentissage par raccourci latent (latent shortcut learning) et l'échantillonnage temporel selon une distribution bêta lors de l'entraînement afin d'améliorer la qualité de synthèse des gestes et d'accélérer l'inférence. En combinant la modélisation spatio-temporelle et le cadre amélioré basé sur l'appariement de flux, GestureLSM atteint des performances d'état de l'art sur BEAT2 tout en réduisant considérablement le temps d'inférence par rapport aux méthodes existantes, soulignant son potentiel pour améliorer les humains numériques et les agents incarnés dans les applications réelles. Page du projet : https://andypinxinliu.github.io/GestureLSM