Vers une détection précise des points de repère faciaux par le biais de transformateurs en cascade

Des repères faciaux précis sont des prérequis essentiels pour de nombreuses tâches liées aux visages humains. Dans cet article, nous proposons un détecteur de repères faciaux précis basé sur des transformateurs en cascade. Nous formulons la détection de repères faciaux comme une tâche de régression de coordonnées afin que le modèle puisse être entraîné de manière end-to-end. Grâce à l'auto-attention dans les transformateurs, notre modèle peut exploiter intrinsèquement les relations structurées entre les repères, ce qui serait bénéfique pour la détection de repères sous des conditions difficiles telles qu'une grande pose et une occultation. Au cours du raffinement en cascade, notre modèle est capable d'extraire les caractéristiques d'image les plus pertinentes autour du repère cible pour prédire les coordonnées, en s'appuyant sur un mécanisme d'attention déformable, ce qui apporte une meilleure alignement. De plus, nous proposons un nouveau décodeur qui affine simultanément les caractéristiques d'image et les positions des repères. Avec une augmentation minime des paramètres, les performances de détection s'améliorent davantage. Notre modèle atteint de nouvelles performances de pointe sur plusieurs benchmarks standard de détection de repères faciaux et montre une bonne capacité de généralisation lors d'évaluations inter-bases de données.