HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de parole et de gestes à partir du contexte trimodal texte, audio et identité du locuteur

Youngwoo Yoon Bok Cha Joo-Haeng Lee Minsu Jang Jaeyeon Lee Jaehong Kim Geehyuk Lee

Résumé

Pour les agents humanoïdes, qu’il s’agisse d’avatars virtuels ou de robots sociaux, effectuer des gestes appropriés pendant la parole est essentiel dans les interactions homme-agent. Les gestes co-speech améliorent l’expérience d’interaction et donnent l’impression que les agents sont vivants. Toutefois, la génération de gestes naturels reste difficile en raison du manque de compréhension du comportement gestuel humain. Les approches fondées sur les données tentent d’apprendre les compétences gestuelles à partir de démonstrations humaines, mais la nature ambiguë et individuelle des gestes limite leur apprentissage. Dans cet article, nous présentons un modèle automatique de génération de gestes qui utilise le contexte multimodal constitué du texte parlé, de l’audio et de l’identité du locuteur pour générer de manière fiable des gestes humains. En intégrant un contexte multimodal et un schéma d’entraînement adversarial, le modèle proposé produit des gestes naturels, bien synchronisés avec le contenu et le rythme du discours. Nous introduisons également une nouvelle métrique quantitative pour l’évaluation des modèles de génération de gestes. Des expériences menées avec cette métrique et une évaluation subjective par des humains montrent que notre modèle de génération de gestes surpasser les modèles existants basés sur une approche end-to-end. Nous confirmons également que notre modèle fonctionne efficacement avec de l’audio synthétisé dans des scénarios à contraintes contextuelles, et démontrons qu’il est possible de générer différents styles gestuels pour un même discours en spécifiant différentes identités de locuteur dans l’espace d’embeddings de style appris à partir de vidéos d’interlocuteurs variés. Tous les codes et données sont disponibles à l’adresse suivante : https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Génération de parole et de gestes à partir du contexte trimodal texte, audio et identité du locuteur | Articles | HyperAI