DigiFace-1M : 1 Million d'Images Numériques de Visages pour la Reconnaissance Faciale

Les modèles de reconnaissance faciale les plus avancés montrent une précision impressionnante, atteignant plus de 99,8 % sur le jeu de données Labeled Faces in the Wild (LFW). Ces modèles sont formés à partir de jeux de données à grande échelle contenant des millions d'images réelles de visages humains collectées sur Internet. Les images de visages collectées via le web sont fortement biaisées (en termes de race, d'éclairage, de maquillage, etc.) et contiennent souvent du bruit dans les étiquettes. Plus important encore, ces images sont collectées sans consentement explicite, soulevant des préoccupations éthiques. Pour éviter ces problèmes, nous introduisons un grand jeu de données synthétique pour la reconnaissance faciale, obtenu par le rendu de visages numériques à l'aide d'un pipeline graphique informatique. Nous démontrons d'abord que l'augmentation agressive des données peut réduire considérablement l'écart entre les domaines synthétique et réel. Ayant un contrôle total sur le pipeline de rendu, nous étudions également comment chaque attribut (par exemple, la variation de la pose faciale, des accessoires et des textures) affecte la précision. Comparé à SynFace, une méthode récente formée sur des visages synthétiques générés par GAN, nous réduisons le taux d'erreur sur LFW de 52,5 % (la précision passe de 91,93 % à 96,17 %). En affinant le réseau sur un nombre plus restreint d'images réelles de visages qui peuvent raisonnablement être obtenues avec consentement, nous atteignons une précision comparable aux méthodes formées sur des millions d'images réelles de visages.