VGGFace2 : Une base de données pour la reconnaissance des visages en fonction de la pose et de l'âge

Dans cet article, nous présentons un nouveau jeu de données à grande échelle pour la reconnaissance faciale nommé VGGFace2. Ce jeu de données contient 3,31 millions d'images de 9 131 individus, avec une moyenne de 362,6 images par individu. Les images ont été téléchargées à partir de Google Image Search et présentent des variations importantes en termes de pose, d'âge, d'éclairage, d'ethnie et de profession (par exemple, acteurs, athlètes, politiciens). La collecte du jeu de données s'est faite en tenant compte de trois objectifs principaux : (i) disposer d'un grand nombre d'identités ainsi que d'un grand nombre d'images pour chaque identité ; (ii) couvrir une large gamme de poses, d'âges et d'ethnies ; et (iii) minimiser le bruit des étiquettes. Nous décrivons la manière dont le jeu de données a été collecté, en particulier les étapes de filtrage automatisé et manuel mises en œuvre pour garantir une haute précision des images associées à chaque identité. Pour évaluer les performances de la reconnaissance faciale en utilisant ce nouveau jeu de données, nous avons formé des réseaux neuronaux convolutifs ResNet-50 (avec et sans blocs Squeeze-and-Excitation) sur VGGFace2, sur MS-Celeb-1M et sur leur union, montrant que l'entraînement sur VGGFace2 améliore les performances de reconnaissance en termes de pose et d'âge. Enfin, en utilisant les modèles formés sur ces jeux de données, nous démontrons des performances au niveau de l'état de l'art sur tous les benchmarks de reconnaissance faciale IARPA Janus, tels que IJB-A, IJB-B et IJB-C, surpassant largement l'état antérieur de l'art. Les jeux de données et les modèles sont disponibles publiquement.