HyperAIHyperAI
il y a 2 mois

FaceXHuBERT : Synthèse d'animation faciale 3D expressive sans texte à partir de la parole, utilisant l'apprentissage de représentations vocales auto-supervisées

Haque, Kazi Injamamul ; Yumak, Zerrin
FaceXHuBERT : Synthèse d'animation faciale 3D expressive sans texte à partir de la parole, utilisant l'apprentissage de représentations vocales auto-supervisées
Résumé

Ce document présente FaceXHuBERT, une méthode de génération d'animations faciales 3D pilotées par la parole sans texte, permettant de capturer des indices personnalisés et subtils dans le discours (par exemple, l'identité, les émotions et les hésitations). Cette méthode est également très robuste au bruit de fond et peut traiter des enregistrements audio réalisés dans diverses situations (par exemple, plusieurs personnes parlant). Les approches récentes utilisent un apprentissage profond de bout en bout prenant en compte à la fois l'audio et le texte comme entrées pour générer des animations faciales pour l'ensemble du visage. Cependant, la rareté des jeux de données publics expressifs combinant audio et animation faciale 3D constitue une importante bouteille d'amitié. Les animations résultantes présentent encore des problèmes en matière de synchronisation labiale précise, d'expressivité, d'informations spécifiques à la personne et de généralisabilité. Nous utilisons efficacement un modèle HuBERT pré-entraîné de manière auto-supervisée dans le processus d'apprentissage, ce qui nous permet d'intégrer à la fois des informations lexicales et non lexicales dans l'audio sans utiliser un grand lexique. De plus, guider l'apprentissage avec une condition émotionnelle binaire et l'identité du locuteur permet de distinguer les mouvements faciaux les plus subtils. Nous avons effectué une évaluation extensive objective et subjective en comparaison avec les données véritables et les travaux de pointe actuels. Une étude perceptive auprès des utilisateurs démontre que notre approche produit des résultats supérieurs en termes de réalisme de l'animation 78 % du temps par rapport aux méthodes actuelles les plus avancées. De plus, notre méthode est quatre fois plus rapide en éliminant l'utilisation de modèles séquentiels complexes tels que les transformateurs. Nous recommandons vivement de visionner la vidéo supplémentaire avant de lire le document. Nous fournissons également le code d'implémentation et d'évaluation via un lien vers un dépôt GitHub.Note : La traduction utilise "bouteille d'amitié" pour "bottleneck" car c'est une expression courante en français pour désigner un obstacle ou une difficulté majeure. Cependant, si vous préférez une traduction plus littérale, vous pouvez remplacer par "col de bouteille".