Les représentations faciales profondément apprises sont éparse, sélective et robuste.

Ce document présente la conception d'un réseau de neurones convolutifs profonds à haute performance (DeepID2+) pour la reconnaissance faciale. Ce réseau est appris à partir d'un signal de supervision combinant l'identification et la vérification. En augmentant la dimension des représentations cachées et en ajoutant une supervision aux premières couches convolutives, DeepID2+ atteint de nouveaux niveaux de performance sur les benchmarks LFW et YouTube Faces. À travers des études empiriques, nous avons découvert trois propriétés des activations neuronales profondes qui sont cruciales pour cette haute performance : la parcimonie, la sélectivité et la robustesse.1) Il a été observé que les activations neuronales sont modérément parcimonieuses. Une parcimonie modérée maximise le pouvoir discriminant du réseau profond tout en augmentant la distance entre les images. Il est surprenant que DeepID2+ puisse encore atteindre une précision de reconnaissance élevée même après que les réponses neuronales ont été binarisées.2) Les neurones des couches supérieures sont très sélectifs par rapport aux identités et aux attributs liés à l'identité. Nous pouvons identifier différents sous-ensembles de neurones qui sont soit constamment activés, soit inhibés lorsqu'il y a présence de différentes identités ou attributs. Bien que DeepID2+ ne soit pas formé pour distinguer ces attributs au cours de l'apprentissage, il a implicitement acquis ces concepts de haut niveau.3) Le réseau est beaucoup plus robuste face aux occultations, bien que les motifs d'occultation ne soient pas inclus dans l'ensemble d'entraînement.