Exploration de l'espace latent de StyleGAN pour l'alignement facial avec des données d'entraînement limitées

Au fil des années, les modèles d'apprentissage profond ont connu une croissance significative en taille, parfois dépassant un milliard de paramètres, ce qui entraîne une nécessité croissante de grands jeux de données d'entraînement annotés. Pour atténuer ce problème, l'intérêt pour l'apprentissage auto-supervisé ne cesse de croître. Dans ce domaine, avec l'émergence des réseaux génératifs adverses (GANs) et notamment de StyleGAN, la qualité de la génération d'images s'est considérablement améliorée. Dans cet article, nous proposons d'utiliser StyleGAN pour réaliser l'alignement facial à partir de données d'entraînement limitées, au lieu de se concentrer sur la génération d'images. Notre cadre proposé, appelé FASE (Face Alignment using StyleGAN Embeddings), projette les images réelles dans l'espace latent de StyleGAN, puis prédit les points de repère faciaux à partir des vecteurs latents. Notre méthode atteint un état de l'art sur plusieurs jeux de données d'alignement facial dans un cadre à peu de données (few-shot).