Faut-il vraiment collecter des millions de visages pour une reconnaissance faciale efficace ?

Les capacités de reconnaissance faciale ont récemment connu des progrès extraordinaires. Bien que ces avancées soient en partie attribuables à l'augmentation considérable des tailles des ensembles d'entraînement – d'énormes quantités d'images de visages téléchargées et étiquetées pour l'identification – il n'est pas clair si la tâche ardue de collecter autant d'images est véritablement nécessaire. Nous proposons une méthode bien plus accessible pour augmenter les tailles des ensembles d'entraînement destinés aux systèmes de reconnaissance faciale. Au lieu de récolter et d'étiqueter manuellement davantage de visages, nous les synthétisons simplement. Nous décrivons de nouvelles méthodes permettant d'enrichir un ensemble de données existant avec des variations importantes de l'apparence faciale en manipulant les visages qu'il contient. Nous appliquons également cette approche de synthèse lors du couplage d'images de requête représentées par un réseau neuronal convolutif standard. L'effet de l'utilisation d'images synthétiques lors de l'entraînement et des tests est évalué en détail sur les bancs d'essai LFW et IJB-A (vérification et identification) ainsi que sur Janus CS2. Les performances obtenues par notre approche correspondent aux résultats les plus avancés rapportés par des systèmes entraînés sur plusieurs millions d'images téléchargées.