HyperAIHyperAI
il y a 18 jours

Agrégation convolutive de preuves locales pour l'alignement facial à grande pose

{Georgios Tzimiropoulos, Adrian Bulat}
Agrégation convolutive de preuves locales pour l'alignement facial à grande pose
Résumé

Les méthodes d’alignement facial sans contrainte doivent satisfaire deux exigences : elles ne doivent pas dépendre d’une initialisation précise ou d’une détection faciale fiable, et elles doivent offrir des performances équivalentes sur l’ensemble du spectre des poses faciales. À notre connaissance, aucune méthode n’a jusqu’à présent répondu de manière satisfaisante à ces deux critères. Dans cet article, nous proposons Convolutional Aggregation of Local Evidence (CALE), une architecture de réseau de neurones convolutifs (CNN) spécifiquement conçue pour répondre à ces deux défis. En particulier, pour éliminer la dépendance à une détection faciale précise, notre système effectue d’abord une détection des parties du visage, produisant des cartes de confiance pour la localisation de chaque point d’ancrage facial (preuves locales). Ensuite, ces cartes de confiance ainsi que les caractéristiques précoces extraites par le CNN sont agrégées par notre système via une régression conjointe, afin de raffiner la position des points d’ancrage. En outre, la régression par CNN joue un rôle clé en tant que modèle graphique, guidant le réseau à s’appuyer sur le contexte pour prédire la position des points occlus, souvent rencontrés dans des poses très extrêmes. L’ensemble du système est entraîné de manière end-to-end avec une supervision intermédiaire. Appliqué au jeu de données AFLW-PIFA, le plus difficile à ce jour pour l’alignement facial humain, notre méthode obtient une amélioration supérieure à 50 % en précision de localisation par rapport aux autres méthodes récemment publiées pour l’alignement facial en grandes poses. Au-delà des visages humains, nous démontrons également que CALE est efficace face à de très grandes variations de forme et d’apparence, typiques des visages d’animaux.