Une approche réaliste pour générer des visages masqués appliquée à deux nouveaux jeux de données de reconnaissance de visages masqués

La pandémie de COVID-19 soulève le défi de l’adaptation des systèmes de reconnaissance faciale à une nouvelle réalité où les individus portent des masques chirurgicaux couvrant le nez et la bouche. Les jeux de données traditionnels (tels que CelebA ou CASIA-WebFace), utilisés pour entraîner ces systèmes, ont été publiés avant la pandémie et semblent désormais inadaptés en raison du manque d’exemples de visages masqués. Nous proposons une méthode visant à enrichir les jeux de données contenant des visages non masqués en générant synthétiquement des masques que nous superposons aux visages des images d’origine. Notre approche repose sur SparkAR Studio, un environnement de développement développé par Facebook, destiné à concevoir des filtres visage pour Instagram. Dans notre méthode, nous utilisons 9 types de masques aux couleurs, formes et tissus variés. Nous appliquons cette technique pour générer 445 446 échantillons (90 %) de visages masqués pour le jeu de données CASIA-WebFace, et 196 254 échantillons (96,8 %) pour CelebA, en rendant les images masquées disponibles à l’adresse suivante : https://github.com/securifai/masked_faces. Nous démontrons que notre méthode produit des exemples d’entraînement plus réalistes de visages masqués, en soumettant les résultats à un jugement qualitatif par des volontaires comparant notre approche à d’autres méthodes ou jeux de données dédiés à cette tâche. Nous montrons également l’utilité de notre méthode en évaluant des systèmes de reconnaissance faciale de pointe (FaceNet, VGG-face, ArcFace) entraînés sur nos jeux de données enrichis, et en démontrant qu’ils surpassent, dans des tests comportant des visages masqués, les performances des systèmes entraînés sur des jeux de données originaux (sans masques) ou sur des jeux de données concurrents générés par des méthodes apparentées.