FaceFormer : Animation faciale 3D pilotée par la parole avec des Transformers

L'animation faciale 3D pilotée par la parole est un défi en raison de la géométrie complexe des visages humains et de la disponibilité limitée de données audiovisuelles 3D. Les travaux antérieurs se concentrent généralement sur l'apprentissage des caractéristiques phonétiques de fenêtres audio courtes avec un contexte limité, ce qui peut parfois entraîner des mouvements labiaux inexactes. Pour surmonter cette limitation, nous proposons un modèle auto-régressif basé sur les Transformers, appelé FaceFormer, qui encode le contexte audio à long terme et prédit de manière auto-régressive une séquence de maillages faciaux 3D animés. Afin de faire face au problème de rareté des données, nous intégrons les représentations vocales pré-entraînées de manière auto-supervisée. De plus, nous concevons deux mécanismes d'attention biaisés bien adaptés à cette tâche spécifique : l'attention multi-têtes (MT) inter-modale biaisée et l'attention MT causale biaisée avec une stratégie d'encodage positionnel périodique. Le premier aligne efficacement les modalités audio-mouvement, tandis que le second offre la capacité de généraliser aux séquences audio plus longues. Des expériences approfondies et une étude perceptive auprès des utilisateurs montrent que notre approche surpassent les méthodes existantes actuellement considérées comme l'état de l'art. Le code sera rendu disponible.