EMOCA : Capture et animation faciale monoculaire pilotées par l'émotion

Alors que les avatars faciaux 3D sont de plus en plus utilisés pour la communication, il est essentiel qu’ils transmettent fidèlement les émotions. Malheureusement, les meilleures méthodes récentes permettant de reconstruire des modèles faciaux 3D paramétriques à partir d’images monoculaires sont incapables de capturer la pleine gamme d’expressions faciales, notamment les émotions subtiles ou extrêmes. Nous constatons que les métriques classiques de reconstruction utilisées pendant l’entraînement (erreur de réprojection des points d’intérêt, erreur photométrique et perte de reconnaissance faciale) s’avèrent insuffisantes pour capter des expressions de haute fidélité. Le résultat est une géométrie faciale qui ne correspond pas au contenu émotionnel de l’image d’entrée. Nous abordons ce problème avec EMOCA (EMOtion Capture and Animation), en introduisant une nouvelle perte d’homogénéité émotionnelle fondée sur une perception profonde durant l’entraînement, qui garantit que l’expression 3D reconstruite correspond à celle représentée dans l’image d’entrée. Bien que EMOCA atteigne des erreurs de reconstruction 3D comparables aux meilleures méthodes actuelles, elle se distingue nettement par la qualité de l’expression reconstruite et par la pertinence perçue du contenu émotionnel. Nous avons également directement régressé les niveaux de valence et d’excitation, ainsi que classé les expressions fondamentales à partir des paramètres 3D estimés du visage. Sur la tâche de reconnaissance émotionnelle dans des environnements réels (in-the-wild), notre approche purement géométrique se montre aussi performante que les meilleures méthodes basées sur les images, soulignant ainsi la valeur de la géométrie 3D dans l’analyse du comportement humain. Le modèle et le code sont disponibles publiquement à l’adresse suivante : https://emoca.is.tue.mpg.de.