GhostVLAD pour la reconnaissance faciale basée sur des ensembles

L'objectif de cet article est d'apprendre une représentation compacte d'ensembles d'images pour la reconnaissance faciale basée sur des modèles. Nous apportons les contributions suivantes : premièrement, nous proposons une architecture de réseau qui agrège et intègre les descripteurs faciaux produits par des réseaux neuronaux convolutifs profonds dans une représentation compacte de longueur fixe. Cette représentation compacte nécessite un stockage mémoire minimal et permet un calcul de similarité efficace. Deuxièmement, nous introduisons une nouvelle couche GhostVLAD qui inclut des {\em clusters fantômes} (ghost clusters), qui ne contribuent pas à l'agrégation. Nous montrons qu'un poids de qualité s'applique automatiquement aux visages en entrée, de telle sorte que les images informatives contribuent davantage que celles de faible qualité, et que les clusters fantômes améliorent la capacité du réseau à gérer les images de mauvaise qualité. Troisièmement, nous examinons comment la dimension des caractéristiques en entrée, le nombre de clusters et différentes techniques d'entraînement influencent les performances de reconnaissance. À partir de cette analyse, nous entraînons un réseau qui dépasse largement l'état de l'art sur le jeu de données IJB-B pour la reconnaissance faciale. Ce dernier constitue actuellement l'un des défis publics les plus complexes, et nous surpassons l'état de l'art tant pour les protocoles d'identification que pour ceux de vérification.