HyperAIHyperAI

Command Palette

Search for a command to run...

FaceDiffuser : Synthèse d'animation faciale 3D pilotée par la parole à l'aide de diffusion

Stefan Stan Kazi Injamamul Haque Zerrin Yumak

Résumé

La synthèse d'animations faciales 3D pilotées par la parole a toujours été une tâche complexe, tant dans l'industrie que dans la recherche. Les méthodes récentes se concentrent principalement sur des approches de deep learning déterministes, ce qui signifie que pour une entrée vocale donnée, la sortie est toujours la même. Cependant, en réalité, les indices faciaux non verbaux présents sur tout le visage sont de nature non déterministe. De plus, la plupart des approches se focalisent sur des jeux de données basés sur les sommets 3D (3D vertex), et il existe peu de méthodes compatibles avec les pipelines d'animation faciale existants utilisant des personnages riggés (rigged characters). Pour résoudre ces problèmes, nous présentons FaceDiffuser, un modèle de deep learning non déterministe capable de générer des animations faciales 3D pilotées par la parole, formé à partir de jeux de données basés à la fois sur les sommets 3D et les formes mixtes (blendshapes). Notre méthode s'appuie sur la technique de diffusion et utilise le modèle pré-entraîné HuBERT pour encoder l'entrée audio. À notre connaissance, nous sommes les premiers à employer la méthode de diffusion pour la tâche de synthèse d'animations faciales 3D pilotées par la parole. Nous avons mené des analyses objectives et subjectives exhaustives et montrons que notre approche obtient des résultats meilleurs ou comparables aux méthodes les plus avancées actuellement disponibles. Nous introduisons également un nouveau jeu de données interne basé sur un personnage riggé utilisant des formes mixtes (blendshape based rigged character). Nous recommandons vivement de visionner la vidéo supplémentaire accompagnant cet article. Le code source et le jeu de données seront mis à disposition du public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FaceDiffuser : Synthèse d'animation faciale 3D pilotée par la parole à l'aide de diffusion | Articles | HyperAI