LUVLi Alignment des visages : estimation de la localisation, de l'incertitude et de la probabilité de visibilité des points d'ancrage

Les méthodes modernes d’alignement facial sont devenues très précises dans la prédiction des positions des points de repère faciaux, mais elles ne tiennent généralement pas compte de l’incertitude associée à ces prédictions ni ne prédisent si les points de repère sont visibles. Dans cet article, nous proposons un cadre novateur permettant de prédire conjointement les positions des points de repère, l’incertitude associée à ces positions et la visibilité de chaque point. Nous modélisons ces trois aspects comme des variables aléatoires mixtes et les estimons à l’aide d’un réseau neuronal profond entraîné avec une fonction de perte proposée, appelée LUVLi (Location, Uncertainty, and Visibility Likelihood). En outre, nous mettons à disposition une nouvelle étiquetage complète d’un grand jeu de données d’alignement facial comprenant plus de 19 000 images faciales couvrant une large gamme d’orientations de tête. Chaque visage est manuellement étiqueté avec les positions vraies des 68 points de repère, accompagnées d’informations supplémentaires indiquant si chaque point est non masqué, auto-masqué (en raison de poses extrêmes de la tête) ou externement masqué. Non seulement notre estimation conjointe permet d’obtenir des estimations précises de l’incertitude des positions prédites des points de repère, mais elle atteint également des performances de pointe pour la prédiction des positions des points eux-mêmes sur plusieurs jeux de données standards d’alignement facial. Les estimations d’incertitude fournies par notre méthode peuvent être utilisées pour identifier automatiquement les images d’entrée sur lesquelles l’alignement facial échoue, ce qui est crucial pour les tâches ultérieures.