HIH : Vers une Alignement Facial Plus Précis grâce à la Carte de Chaleur dans la Carte de Chaleur

La régression basée sur les cartes de chaleur surmonte le manque d’information spatiale et contextuelle inhérent à la régression directe des coordonnées, et a révolutionné la tâche d’alignement facial. Toutefois, elle souffre d’erreurs de quantification dues à la négligence des coordonnées sous-pixel lors du redimensionnement d’image et du downsampling au sein du réseau. Dans cet article, nous analysons d’abord de manière quantitative l’erreur de quantification sur des benchmarks, qui représente plus d’un tiers des erreurs totales de prédiction pour les méthodes de pointe. Pour résoudre ce problème, nous proposons une nouvelle représentation appelée Heatmap In Heatmap (HIH) ainsi qu’une méthode de classification douce des coordonnées (CSC), intégrées de manière transparente au réseau classique en forme d’horloge (hourglass). La représentation HIH utilise des cartes de chaleur imbriquées pour représenter conjointement l’étiquette de coordonnées : une carte appelée « carte entière » modélise la coordonnée entière, tandis qu’une autre carte, nommée « carte décimale », représente la coordonnée sous-pixel. La plage d’une carte décimale correspond à un pixel dans la carte entière correspondante. Par ailleurs, nous transformons le problème de régression des décalages en une tâche de classification d’intervalle, où CSC considère la confiance d’un pixel comme la probabilité associée à cet intervalle. En outre, la méthode CSC utilise une fonction de perte basée sur une distribution, exploitant des étiquettes douces générées à partir d’une fonction de distribution gaussienne afin de guider l’apprentissage de la carte de chaleur des décalages, ce qui facilite l’acquisition de la distribution des décalages spatiaux. Des expériences étendues sur des jeux de données de benchmark exigeants démontrent que notre approche HIH atteint des résultats de pointe. En particulier, elle obtient un taux d’erreur moyenne normalisée (NME) de 4,08 sur WFLW et de 3,21 sur COFW, surpassant significativement les méthodes antérieures.