FaceDiffuser : Synthèse d'animation faciale 3D pilotée par la parole à l'aide de diffusion

La synthèse d'animations faciales 3D pilotées par la parole a toujours été une tâche complexe, tant dans l'industrie que dans la recherche. Les méthodes récentes se concentrent principalement sur des approches de deep learning déterministes, ce qui signifie que pour une entrée vocale donnée, la sortie est toujours la même. Cependant, en réalité, les indices faciaux non verbaux présents sur tout le visage sont de nature non déterministe. De plus, la plupart des approches se focalisent sur des jeux de données basés sur les sommets 3D (3D vertex), et il existe peu de méthodes compatibles avec les pipelines d'animation faciale existants utilisant des personnages riggés (rigged characters). Pour résoudre ces problèmes, nous présentons FaceDiffuser, un modèle de deep learning non déterministe capable de générer des animations faciales 3D pilotées par la parole, formé à partir de jeux de données basés à la fois sur les sommets 3D et les formes mixtes (blendshapes). Notre méthode s'appuie sur la technique de diffusion et utilise le modèle pré-entraîné HuBERT pour encoder l'entrée audio. À notre connaissance, nous sommes les premiers à employer la méthode de diffusion pour la tâche de synthèse d'animations faciales 3D pilotées par la parole. Nous avons mené des analyses objectives et subjectives exhaustives et montrons que notre approche obtient des résultats meilleurs ou comparables aux méthodes les plus avancées actuellement disponibles. Nous introduisons également un nouveau jeu de données interne basé sur un personnage riggé utilisant des formes mixtes (blendshape based rigged character). Nous recommandons vivement de visionner la vidéo supplémentaire accompagnant cet article. Le code source et le jeu de données seront mis à disposition du public.