DeepFace : Réduire l'écart jusqu'à la performance humaine dans la vérification faciale
Dans la reconnaissance faciale moderne, le pipeline conventionnel se compose de quatre étapes : détection => alignement => représentation => classification. Nous revisitons à la fois l’étape d’alignement et celle de représentation en introduisant un modèle 3D explicite de visage afin d’appliquer une transformation affine par morceaux, et en extrayant une représentation faciale à partir d’un réseau neuronal profond à neuf couches. Ce réseau profond comporte plus de 120 millions de paramètres, basé sur plusieurs couches localement connectées sans partage de poids, contrairement aux couches convolutives standards. Nous l’avons donc entraîné sur le plus grand jeu de données facial à ce jour : un ensemble d’images faciales étiquetées par identité, comprenant quatre millions d’images provenant de plus de 4 000 identités distinctes.Les représentations apprises, combinant un alignement précis fondé sur un modèle et une base de données faciales de grande taille, se généralisent exceptionnellement bien aux visages dans des environnements non contraints, même lorsqu’un classificateur simple est utilisé. Notre méthode atteint une précision de 97,35 % sur le jeu de données Labeled Faces in the Wild (LFW), réduisant l’erreur de l’état de l’art actuel de plus de 27 %, s’approchant ainsi étroitement des performances humaines.