HyperAIHyperAI
il y a un mois

Réseaux multicolonnes pour la reconnaissance faciale

Weidi Xie; Andrew Zisserman
Réseaux multicolonnes pour la reconnaissance faciale
Résumé

L'objectif de ce travail est la reconnaissance faciale basée sur des ensembles, c'est-à-dire décider si deux ensembles d'images d'un visage représentent la même personne ou non. Traditionnellement, le descripteur d'ensemble est calculé comme une moyenne des descripteurs issus des images individuelles du visage au sein de l'ensemble. Dans cet article, nous concevons une architecture de réseau neuronal qui apprend à agréger les informations en fonction de la qualité « visuelle » (résolution, éclairage) et de la qualité « sémantique » (importance relative pour la classification discriminante). À cette fin, nous proposons un Réseau Multicolonne (MN) qui prend en entrée un ensemble d'images (le nombre d'images dans l'ensemble peut varier) et apprend à calculer un descripteur de caractéristiques de taille fixe pour l'ensemble complet. Pour encourager des représentations de haute qualité, chaque image individuelle en entrée est d'abord pondérée par sa qualité « visuelle », déterminée par un module d'évaluation auto-qualitative, puis suivie d'une recalibration dynamique basée sur les qualités « sémantiques » relatives aux autres images au sein de l'ensemble. Ces deux types de qualités sont appris implicitement lors de l'entraînement pour la classification d'ensemble. Comparativement aux architectures précédentes de pointe formées avec le même jeu de données (VGGFace2), nos Réseaux Multicolonnes montrent une amélioration comprise entre 2 et 6 % sur les bancs d'essai de reconnaissance faciale IARPA IJB, et surpassent l'état de l'art pour toutes les méthodes sur ces bancs d'essai.