HyperAIHyperAI
il y a un mois

Réseau de Agrégation Neuronal pour la Reconnaissance Faciale Vidéo

Jiaolong Yang; Peiran Ren; Dongqing Zhang; Dong Chen; Fang Wen; Hongdong Li; Gang Hua
Réseau de Agrégation Neuronal pour la Reconnaissance Faciale Vidéo
Résumé

Ce document présente un Réseau de Agrégation Neuronal (NAN) pour la reconnaissance faciale vidéo. Le réseau prend en entrée une vidéo de visage ou un ensemble d'images de visage d'une personne, avec un nombre variable d'images de visage, et produit une représentation de caractéristiques compacte et de dimension fixe pour la reconnaissance. L'ensemble du réseau est composé de deux modules. Le module d'embedding de caractéristiques est un Réseau Neuronal Convolutif (CNN) profond qui mappe chaque image de visage à un vecteur de caractéristiques. Le module d'agrégation se compose de deux blocs d'attention qui agrègent les vecteurs de caractéristiques de manière adaptative pour former une seule caractéristique à l'intérieur du polyèdre convexe engendré par eux. Grâce au mécanisme d'attention, l'agrégation est invariante à l'ordre des images. Notre NAN est entraîné avec une perte standard de classification ou de vérification sans aucun signal de supervision supplémentaire, et nous avons constaté qu'il apprend automatiquement à favoriser les images faciales de haute qualité tout en repoussant celles de basse qualité, comme les images floues, occultées et mal exposées. Les expériences menées sur les benchmarks IJB-A, YouTube Face et Celebrity-1000 pour la reconnaissance faciale vidéo montrent qu'il surpasse constamment les méthodes d'agrégation naïves et atteint une précision state-of-the-art (état de l’art).

Réseau de Agrégation Neuronal pour la Reconnaissance Faciale Vidéo | Articles de recherche récents | HyperAI