Représentation de visages par apprentissage profond à partir de la prédiction de 10 000 classes

Cet article propose d’apprendre un ensemble de représentations fonctionnelles de haut niveau par apprentissage profond, appelées fonctionnalités d’identité profondes (DeepID), destinées à la vérification faciale. Nous soutenons que les DeepID peuvent être efficacement apprises à travers des tâches exigeantes d’identification faciale multi-classes, tout en étant généralisables à d’autres tâches (comme la vérification) ainsi qu’à de nouvelles identités non présentes dans l’ensemble d’entraînement. En outre, la capacité de généralisation des DeepID s’améliore lorsque le nombre de classes faciales à prédire pendant l’entraînement augmente. Les caractéristiques DeepID sont extraites des activations des neurones de la dernière couche cachée des réseaux convolutionnels profonds (ConvNets). Lorsqu’elles sont apprises comme classificateurs pour reconnaître environ 10 000 identités faciales dans l’ensemble d’entraînement, et configurées pour réduire progressivement le nombre de neurones au fil de la hiérarchie d’extraction des caractéristiques, ces ConvNets profonds forment progressivement des représentations compactes liées à l’identité dans les couches supérieures, avec un nombre réduit de neurones cachés. Les caractéristiques proposées sont extraites à partir de différentes régions du visage afin de former des représentations complémentaires et sur-complètes. Des classificateurs d’état de l’art peuvent être entraînés à partir de ces représentations de haut niveau pour la vérification faciale. Une précision de vérification de 97,45 % sur le jeu de données LFW est atteinte, même avec des visages faiblement alignés.