Apprentissage d'une association hiérarchique entre modalités pour la génération de gestes co-speech

La génération de mouvements corporels et gestuels cohérents avec la parole constitue un problème persistant dans la création d’avatars virtuels. Les études antérieures synthétisent souvent les positions articulaires de manière globale, en générant simultanément les poses de toutes les articulations. Ce type de pipeline direct échoue à produire des gestes co-speech fins et précis. Une observation clé réside dans le fait que les significations hiérarchiques présentes dans la parole et les structures hiérarchiques des gestes humains peuvent naturellement être décrites à plusieurs niveaux de granularité, et associées entre elles. Afin d’exploiter pleinement les richesses des connexions entre l’audio parlé et les gestes humains, nous proposons un cadre novateur nommé Hierarchical Audio-to-Gesture (HA2G) pour la génération de gestes co-speech. Dans HA2G, un apprenant audio hiérarchique extrait des représentations audio à différentes granularités sémantiques. Ensuite, un inféreur de posture hiérarchique rend progressivement la posture humaine entière de manière hiérarchique. Pour améliorer la qualité des gestes synthétisés, nous avons conçu une stratégie d’apprentissage contrastif fondée sur l’alignement audio-texte, afin d’obtenir des représentations audio de meilleure qualité. Des expérimentations étendues ainsi qu’une évaluation humaine démontrent que la méthode proposée génère des gestes co-speech réalistes et surpasse nettement les approches antérieures. Page du projet : https://alvinliu0.github.io/projects/HA2G