Alignement facial plus rapide que temps réel : une approche utilisant un réseau de transformation spatiale 3D dans des poses non contraintes

L'alignement facial consiste à trouver un ensemble de points de repère sur une image avec une sémantique connue. Cependant, cette sémantique des points de repère est souvent perdue dans les approches 2D où les points de repère sont soit déplacés vers les contours visibles, soit ignorés lorsque la position du visage change. Pour extraire des points d'alignement cohérents sur des positions largement variées, il est nécessaire de prendre en compte la structure 3D du visage lors de l'étape d'alignement. Cependant, l'extraction d'une structure 3D à partir d'une seule image 2D nécessite généralement un alignement préalable. Nous présentons notre nouvelle approche permettant d'extraire simultanément la forme 3D du visage et l'alignement 2D sémantiquement cohérent grâce à un réseau de transformation spatiale 3D (3DSTN) pour modéliser à la fois la matrice de projection caméra et les paramètres de déformation d'un modèle 3D. En utilisant un modèle 3D générique et une fonction de déformation par spline mince (TPS), nous sommes capables de générer des formes 3D spécifiques aux sujets sans avoir besoin d'une grande base de formes 3D. De plus, notre réseau proposé peut être entraîné dans un cadre end-to-end sur des données entièrement synthétiques issues du jeu de données 300W-LP. Contrairement à d'autres méthodes 3D, notre approche ne nécessite qu'un seul passage dans le réseau, ce qui permet un alignement plus rapide que temps réel. Les évaluations de notre modèle sur les jeux de données Annotated Facial Landmarks in the Wild (AFLW) et AFLW2000-3D montrent que notre méthode atteint des performances au niveau de l'état de l'art par rapport aux autres approches 3D pour l'alignement.