HyperAIHyperAI

Command Palette

Search for a command to run...

FaceFormer : Animation faciale 3D pilotée par la parole avec des Transformers

Yingruo Fan Zhaojiang Lin Jun Saito Wenping Wang Taku Komura

Résumé

L'animation faciale 3D pilotée par la parole est un défi en raison de la géométrie complexe des visages humains et de la disponibilité limitée de données audiovisuelles 3D. Les travaux antérieurs se concentrent généralement sur l'apprentissage des caractéristiques phonétiques de fenêtres audio courtes avec un contexte limité, ce qui peut parfois entraîner des mouvements labiaux inexactes. Pour surmonter cette limitation, nous proposons un modèle auto-régressif basé sur les Transformers, appelé FaceFormer, qui encode le contexte audio à long terme et prédit de manière auto-régressive une séquence de maillages faciaux 3D animés. Afin de faire face au problème de rareté des données, nous intégrons les représentations vocales pré-entraînées de manière auto-supervisée. De plus, nous concevons deux mécanismes d'attention biaisés bien adaptés à cette tâche spécifique : l'attention multi-têtes (MT) inter-modale biaisée et l'attention MT causale biaisée avec une stratégie d'encodage positionnel périodique. Le premier aligne efficacement les modalités audio-mouvement, tandis que le second offre la capacité de généraliser aux séquences audio plus longues. Des expériences approfondies et une étude perceptive auprès des utilisateurs montrent que notre approche surpassent les méthodes existantes actuellement considérées comme l'état de l'art. Le code sera rendu disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FaceFormer : Animation faciale 3D pilotée par la parole avec des Transformers | Articles | HyperAI