Marquage Facial Préservant la Forme avec des Réseaux de Neurones à Attention Graphique

Les algorithmes d'estimation de points caractéristiques les plus performants s'appuient sur la capacité exceptionnelle des grands réseaux de neurones convolutifs (CNN) à représenter l'apparence locale. Cependant, il est bien connu qu'ils ne peuvent apprendre que des relations spatiales faibles. Pour résoudre ce problème, nous proposons un modèle basé sur la combinaison d'un CNN avec une cascade de régresseurs de réseau d'attention graphique (Graph Attention Network). À cette fin, nous introduisons une codification qui représente conjointement l'apparence et la position des points caractéristiques faciaux, ainsi qu'un mécanisme d'attention pour pondérer les informations en fonction de leur fiabilité. Cette approche est combinée avec une méthode multi-tâches pour initialiser la position des nœuds du graphe et un schéma de description des points caractéristiques allant du grossier au fin. Nos expériences confirment que le modèle proposé apprend une représentation globale de la structure du visage, atteignant des performances optimales dans des benchmarks populaires sur l'estimation de la pose de la tête et des points caractéristiques. L'amélioration apportée par notre modèle est particulièrement significative dans les situations impliquant de grands changements dans l'apparence locale des points caractéristiques.