HyperAIHyperAI
il y a 17 jours

LOTR : Localisation des points de repère faciaux à l’aide d’un Transformer de localisation

Ukrit Watchareeruetai, Benjaphan Sommana, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp, Nakarin Sritrakool
LOTR : Localisation des points de repère faciaux à l’aide d’un Transformer de localisation
Résumé

Cet article présente un nouveau réseau de localisation de points de repère faciaux basé sur le Transformer, nommé Localization Transformer (LOTR). Le cadre proposé adopte une approche directe de régression de coordonnées, exploitant un réseau Transformer afin d’améliorer l’utilisation de l’information spatiale contenue dans la carte de caractéristiques. Un modèle LOTR se compose de trois modules principaux : 1) un squelette visuel qui transforme une image d’entrée en une carte de caractéristiques, 2) un module Transformer qui améliore la représentation des caractéristiques issue du squelette visuel, et 3) une tête de prédiction des points de repère qui prédit directement les coordonnées des points à partir de la représentation du Transformer. À partir d’images faciales découpées et alignées, le modèle LOTR peut être entraîné de manière end-to-end, sans nécessiter d’étapes de post-traitement. Cet article introduit également une fonction de perte lisse appelée smooth-Wing, qui résout la discontinuité des gradients présente dans la perte Wing, permettant une convergence plus stable que les fonctions de perte classiques telles que L1, L2 ou Wing. Les résultats expérimentaux sur le jeu de données JD, fourni par le Premier Défi du Grand Défi de Localisation des Points de Repère Faciaux à 106 points, démontrent l’avantage de LOTR par rapport aux méthodes existantes sur le classement ainsi qu’à deux approches récentes basées sur les cartes de chaleur. Sur le jeu de données WFLW, le cadre LOTR proposé obtient des résultats prometteurs comparés à plusieurs méthodes de pointe. En outre, nous rapportons une amélioration des performances actuelles en reconnaissance faciale lorsqu’utilisant nos modèles LOTR pour l’alignement facial.