il y a 17 jours

Génération de parole et de gestes à partir du contexte trimodal texte, audio et identité du locuteur

Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee, Jaehong Kim, Geehyuk Lee

Résumé

Pour les agents humanoïdes, qu’il s’agisse d’avatars virtuels ou de robots sociaux, effectuer des gestes appropriés pendant la parole est essentiel dans les interactions homme-agent. Les gestes co-speech améliorent l’expérience d’interaction et donnent l’impression que les agents sont vivants. Toutefois, la génération de gestes naturels reste difficile en raison du manque de compréhension du comportement gestuel humain. Les approches fondées sur les données tentent d’apprendre les compétences gestuelles à partir de démonstrations humaines, mais la nature ambiguë et individuelle des gestes limite leur apprentissage. Dans cet article, nous présentons un modèle automatique de génération de gestes qui utilise le contexte multimodal constitué du texte parlé, de l’audio et de l’identité du locuteur pour générer de manière fiable des gestes humains. En intégrant un contexte multimodal et un schéma d’entraînement adversarial, le modèle proposé produit des gestes naturels, bien synchronisés avec le contenu et le rythme du discours. Nous introduisons également une nouvelle métrique quantitative pour l’évaluation des modèles de génération de gestes. Des expériences menées avec cette métrique et une évaluation subjective par des humains montrent que notre modèle de génération de gestes surpasser les modèles existants basés sur une approche end-to-end. Nous confirmons également que notre modèle fonctionne efficacement avec de l’audio synthétisé dans des scénarios à contraintes contextuelles, et démontrons qu’il est possible de générer différents styles gestuels pour un même discours en spécifiant différentes identités de locuteur dans l’espace d’embeddings de style appris à partir de vidéos d’interlocuteurs variés. Tous les codes et données sont disponibles à l’adresse suivante : https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context.