Transformateur de Patches Locaux Épars pour une Alignment Faciale Robuste et l'Apprentissage des Relations Inhérentes entre les Points de Repère

Les méthodes de régression de heatmap ont dominé le domaine de l'alignement facial ces dernières années, bien qu'elles ignorent la relation inhérente entre les différents points d'intérêt. Dans cet article, nous proposons un Sparse Local Patch Transformer (SLPT) pour apprendre cette relation inhérente. Le SLPT génère la représentation de chaque point d'intérêt individuel à partir d'un patch local et les agrège en utilisant une relation inhérente adaptative basée sur le mécanisme d'attention. La coordonnée sous-pixel de chaque point d'intérêt est prédite indépendamment sur la base des caractéristiques agrégées. De plus, un cadre progressif de grossière à fine est introduit pour être intégré avec le SLPT, ce qui permet aux points d'intérêt initiaux de converger progressivement vers les points d'intérêt faciaux cibles en utilisant des caractéristiques fines provenant de patches locaux redimensionnés dynamiquement. Des expériences approfondies menées sur trois benchmarks populaires, dont WFLW, 300W et COFW, démontrent que la méthode proposée fonctionne au niveau de l'état de l'art avec une complexité computationnelle beaucoup moindre grâce à l'apprentissage de la relation inhérente entre les points d'intérêt faciaux. Le code est disponible sur le site web du projet.