Transformateur visuel dual en cascade pour une détection précise des points de repère faciaux

La détection de points clés faciaux est un problème fondamental en vision par ordinateur pour de nombreuses applications downstream. Cet article introduit un nouveau détecteur de points clés faciaux basé sur les transformers visuels, qui comprend deux conceptions uniques : le Dual Vision Transformer (D-ViT) et les Longues Connexions de Saut (LSC). Partant de l'observation que la dimension canal des cartes de caractéristiques représente essentiellement les bases linéaires de l'espace heatmap, nous proposons d'apprendre les interconnexions entre ces bases linéaires pour modéliser les relations géométriques inhérentes entre les points clés via le Channel-split ViT. Nous intégrons ce Channel-split ViT au transformer visuel standard (c'est-à-dire, le spatial-split ViT), formant ainsi notre Dual Vision Transformer qui constitue les blocs de prédiction. Nous suggérons également d'utiliser des connexions de saut longues pour transmettre les caractéristiques d'image de bas niveau à tous les blocs de prédiction, évitant ainsi que des informations utiles soient éliminées par la supervision intermédiaire. De nombreuses expériences sont menées pour évaluer les performances de notre proposition sur des bancs d'essai largement utilisés, à savoir WFLW, COFW et 300W, démontrant que notre modèle surpassent les précédents états de l'art sur les trois bancs d'essai.Note: "downstream" est généralement conservé tel quel dans le contexte technologique en français, car il n'a pas d'équivalent direct couramment utilisé.