Réseaux U-Dense Empilés avec Deux Transformateurs pour une Alignment Faciale Robuste

La localisation des points de repère faciaux dans des images capturées en conditions réelles est un problème important et difficile. L'état de l'art actuel tourne autour de certains types de Réseaux Neuronaux Convolutifs Profonds (RNCP) tels que les U-Nets empilés et les réseaux Hourglass. Dans ce travail, nous proposons innovamment des U-Nets denses empilés pour cette tâche. Nous concevons une nouvelle structure topologique de réseau d'agrégation d'échelle et un bloc de construction d'agrégation de canaux afin d'améliorer la capacité du modèle sans sacrifier la complexité computationnelle ni la taille du modèle. Avec l'aide des convolutions déformables à l'intérieur des U-Nets denses empilés et d'une perte cohérente pour la transformation des données externes, notre modèle acquiert la capacité d'être spatialement invariant face à des images faciales d'entrée quelconques. De nombreuses expériences sur divers jeux de données en conditions réelles valident la robustesse de la méthode proposée face à des poses extrêmes, des expressions exagérées et des occultations importantes. Enfin, nous montrons que l'alignement facial 3D précis peut aider à la reconnaissance faciale invariante aux poses, où nous atteignons une nouvelle précision record sur le jeu de données CFP-FP.