HyperAIHyperAI
il y a 17 jours

Rhythmic Gesticulator : Synthèse de gestes co-speech sensibles au rythme à l’aide d’embeddings neuronaux hiérarchiques

Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu
Rhythmic Gesticulator : Synthèse de gestes co-speech sensibles au rythme à l’aide d’embeddings neuronaux hiérarchiques
Résumé

La synthèse automatique de gestes co-speech réalistes constitue une tâche de plus en plus importante mais également difficile dans la création d’agents incarnés artificiels. Les systèmes précédents se concentrent principalement sur la génération de gestes de manière end-to-end, ce qui entraîne des difficultés à extraire clairement le rythme et le sens en raison de l’harmonie complexe mais subtile entre la parole et les gestes. Nous proposons une nouvelle méthode de synthèse de gestes co-speech qui obtient des résultats convaincants tant au niveau du rythme que du sens. Pour le rythme, notre système intègre une pipeline robuste de segmentation basée sur le rythme, garantissant explicitement la cohérence temporelle entre la vocalisation et les gestes. Pour le sens des gestes, nous avons conçu un mécanisme permettant de désentrelacer efficacement les embeddings neuronaux de bas et de haut niveau issus de la parole et du mouvement, fondé sur la théorie linguistique. L’embedding de haut niveau correspond au sens, tandis que l’embedding de bas niveau est associé aux variations subtiles. Enfin, nous établissons une correspondance entre les embeddings hiérarchiques de la parole et ceux du mouvement, aboutissant à une synthèse de gestes consciente à la fois du rythme et du sens. Des évaluations utilisant des métriques objectives existantes, une nouvelle métrique rythmique proposée spécifiquement, ainsi que des retours humains montrent que notre méthode dépasse clairement les systèmes de pointe actuels.