DeCaFA : Deep Convolutional Cascade pour l'Alignement Facial en Conditions Réelles

L'alignement facial est un domaine actif en vision par ordinateur, qui consiste à localiser un certain nombre de points caractéristiques du visage qui varient selon les jeux de données. Les méthodes d'alignement facial les plus avancées consistent soit en une régression de bout en bout, soit en un affinement progressif de la forme, à partir d'une estimation initiale. Dans cet article, nous présentons DeCaFA, une architecture convolutive profonde en cascade de bout en bout pour l'alignement facial. DeCaFA utilise des étapes entièrement convolutionnelles pour maintenir une résolution spatiale complète tout au long de la cascade. Entre chaque étape de la cascade, DeCaFA utilise plusieurs couches de transfert chaînées avec un softmax spatial pour produire des cartes d'attention spécifiques à chaque point caractéristique pour chacune des tâches d'alignement des points caractéristiques. La supervision intermédiaire pondérée ainsi qu'une fusion efficace des caractéristiques entre les étapes permettent d'apprendre à affiner progressivement les cartes d'attention de manière intégrée. Nous montrons expérimentalement que DeCaFA surpasse significativement les approches existantes sur les bases de données 300W, CelebA et WFLW. En outre, nous démontrons que DeCaFA peut apprendre un alignement précis à partir d'un très petit nombre d'images utilisant des données annotées grossièrement.