il y a 11 jours

WebFace260M : Un référentiel révélant le potentiel de la reconnaissance faciale profonde à l’échelle du million

Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Jiwen Lu, Dalong Du, Jie Zhou

Voir les détails de l'article

WebFace260M : Un référentiel révélant le potentiel de la reconnaissance faciale profonde à l’échelle du million

Résumé

Dans cet article, nous présentons un nouveau benchmark à l’échelle du million d’identités visages, comprenant des données d’entraînement bruitées (4 millions d’identités / 260 millions de visages, appelées WebFace260M) et des données nettoyées (2 millions d’identités / 42 millions de visages, appelées WebFace42M), ainsi qu’un protocole d’évaluation soigneusement conçu sous contrainte de temps. Premièrement, nous collectons une liste de 4 millions de noms et téléchargeons 260 millions de visages à partir d’internet. Ensuite, nous proposons un pipeline de nettoyage automatisé basé sur l’apprentissage auto-supervisé (CAST), qui permet de purifier efficacement l’énorme ensemble WebFace260M, tout en étant hautement efficace et évolutif. À notre connaissance, WebFace42M constitue le plus grand ensemble public disponible pour l’entraînement en reconnaissance faciale, et nous espérons ainsi réduire le fossé existant entre le milieu académique et l’industrie. En s’inspirant de scénarios réels, nous avons conçu le protocole FRUITS (Face Recognition Under Inference Time conStraint) ainsi qu’un jeu de test pour évaluer de manière exhaustive les modèles de reconnaissance faciale.Équipés de ce benchmark, nous explorons les problèmes liés à la reconnaissance faciale à grande échelle. Un cadre distribué est développé afin d’entraîner efficacement des modèles de reconnaissance faciale sans compromettre leurs performances. Grâce à WebFace42M, nous réduisons de 40 % le taux d’échec relatif sur le jeu de test exigeant IJB-C, et obtenons la 3e place parmi les 430 participations au NIST-FRVT. Même avec seulement 10 % des données (WebFace4M), les performances dépassent celles des ensembles d’entraînement publics existants. En outre, nous établissons des bases de comparaison complètes sur notre jeu de test riche en attributs, selon le protocole FRUITS-100ms/500ms/1000ms, incluant des architectures telles que MobileNet, EfficientNet, AttentionNet, ResNet, SENet, ResNeXt et RegNet. Le site du benchmark est accessible à l’adresse suivante : https://www.face-benchmark.org.