Réseaux de régression de forme directe pour l’alignement facial end-to-end

L’alignement facial a été largement étudié au sein de la communauté de vision par ordinateur en raison de son rôle fondamental dans l’analyse faciale, mais il demeure un problème non résolu. Les principaux défis proviennent de la relation fortement non linéaire entre les images faciales et les formes faciales associées, qui est renforcée par les corrélations sous-jacentes entre les points de repère. Les méthodes existantes reposent principalement sur une régression en cascade, ce qui les rend sujettes à des inconvénients intrinsèques, tels qu’une forte dépendance à l’initialisation et une inability à exploiter efficacement les corrélations entre les points de repère. Dans cet article, nous proposons le réseau de régression directe de forme (DSRN) pour l’alignement facial end-to-end, en traitant conjointement les défis mentionnés ci-dessus dans un cadre unifié. Plus précisément, en exploitant une couche de convolution double et une couche de pooling par caractéristiques de Fourier proposée dans ce travail, le DSRN construit efficacement des représentations puissantes afin de délier les relations non linéaires complexes entre les images et les formes ; en intégrant une couche linéaire basée sur un apprentissage de faible rang, le DSRN encode de manière efficace les corrélations entre les points de repère, améliorant ainsi les performances. Le DSRN combine les forces des noyaux pour l’extraction de caractéristiques non linéaires et des réseaux neuronaux pour la prédiction structurée, et constitue la première architecture d’apprentissage end-to-end pour l’alignement facial direct. Son efficacité et sa généralité ont été validées par des expériences approfondies sur cinq jeux de données standard, à savoir AFLW, 300W, CelebA, MAFL et 300VW. Tous les résultats expérimentaux démontrent que le DSRN atteint de manière cohérente des performances élevées, dépassant dans la plupart des cas les méthodes de pointe.