3FabRec : Alignement visage à faible exemple rapide par reconstruction

Les méthodes actuelles de détection de points de repère faciaux supervisées nécessitent une grande quantité de données d’entraînement et peuvent souffrir d’un surapprentissage sur des jeux de données spécifiques en raison du nombre élevé de paramètres. Nous proposons une méthode semi-supervisée dont l’idée centrale consiste à extraire initialement des connaissances implicites sur les visages à partir des grandes quantités d’images non étiquetées de visages disponibles actuellement. Dans une première phase entièrement non supervisée, nous entraînons un autoencodeur adversaire afin de reconstruire les visages à partir d’un embedding visage à faible dimension. Dans une deuxième phase supervisée, nous intégrons des couches de transfert entre le décodeur et la génération d’images couleur, afin de réaffecter cette dernière à la prédiction de cartes de chaleur des points de repère. Notre cadre (3FabRec) atteint des performances de pointe sur plusieurs benchmarks courants, et surtout, parvient à maintenir une précision remarquable même sur des ensembles d’entraînement extrêmement petits, allant jusqu’à seulement 10 images. Étant donné que les couches imbriquées ajoutent très peu de paramètres au décodeur, l’inférence s’exécute à plusieurs centaines d’images par seconde sur une GPU.