il y a 17 jours

Gesture contextuel : Génération de vidéos de gestes co-speech par représentation de gestes attentive au contexte

Pinxin Liu, Pengfei Zhang, Hyeongwoo Kim, Pablo Garrido, Ari Sharpio, Kyle Olszewski

Résumé

La génération de gestes co-speech est essentielle pour créer des avatars réalistes et améliorer les interactions homme-machine en synchronisant les gestes avec la parole. Malgré les progrès récents, les méthodes existantes peinent à identifier avec précision les déclencheurs rythmiques ou sémantiques à partir de l’audio afin de générer des motifs gestuels contextualisés et d’atteindre un réalisme au niveau des pixels. Pour relever ces défis, nous introduisons Contextual Gesture, un cadre innovant qui améliore la génération de vidéos de gestes co-speech grâce à trois composants originaux : (1) un alignement chronologique parole-geste qui relie temporellement les deux modalités, (2) une tokenisation de gestes contextualisés qui intègre le contexte linguistique dans la représentation des motifs moteurs par distillation, et (3) un module de raffinement conscient de la structure qui utilise des connexions par arêtes pour relier les points clés des gestes et améliorer la qualité de la génération vidéo. Nos expériences approfondies montrent que Contextual Gesture produit non seulement des vidéos de gestes réalistes et synchronisées avec la parole, mais qu’il supporte également la génération de séquences longues et des applications d’édition vidéo de gestes, comme illustré à la Figure 1. Page du projet : https://andypinxinliu.github.io/Contextual-Gesture/.