HyperAIHyperAI
il y a 16 jours

Génération de visage parlant enrichi émotionnellement

Sahil Goyal, Shagun Uppal, Sarthak Bhagat, Yi Yu, Yifang Yin, Rajiv Ratn Shah
Génération de visage parlant enrichi émotionnellement
Résumé

Plusieurs travaux ont développé des pipelines end-to-end pour générer des visages parlants synchronisés labiales, avec diverses applications dans le monde réel, telles que l'enseignement ou la traduction de langues dans les vidéos. Toutefois, ces approches antérieures échouent à produire des vidéos réaliste en raison d'une attention limitée portée aux expressions et aux émotions humaines. En outre, leur efficacité dépend fortement des visages présents dans les jeux de données d'entraînement, ce qui signifie qu'elles peuvent mal performer sur des visages inconnus. Pour atténuer ce problème, nous proposons un cadre de génération de visages parlants conditionné par une émotion catégorielle, permettant de produire des vidéos dotées d'expressions appropriées, rendant ainsi les résultats plus réalistes et crédibles. Grâce à une gamme large de six émotions — joie, tristesse, peur, colère, dégoût et neutre —, nous démontrons que notre modèle peut s’adapter à des identités, émotions et langues arbitraires. Notre cadre proposé intègre une interface web conviviale offrant une expérience en temps réel pour la génération de visages parlants avec émotions. Nous avons également mené une étude utilisateur pour évaluer subjectivement l'utilisabilité, la conception et les fonctionnalités de notre interface. Page du projet : https://midas.iiitd.edu.in/emo/

Génération de visage parlant enrichi émotionnellement | Articles de recherche récents | HyperAI