SeqFace : Utiliser pleinement les informations séquentielles pour la reconnaissance faciale

Les réseaux de neurones convolutifs profonds (CNNs) ont considérablement amélioré les performances de la reconnaissance faciale (FR) ces dernières années. Presque tous les CNNs utilisés en FR sont formés sur des jeux de données soigneusement étiquetés contenant un grand nombre d'identités. Cependant, la collecte de tels jeux de données de haute qualité est très coûteuse, ce qui limite de nombreux chercheurs dans leur capacité à atteindre des performances de pointe. Dans cet article, nous proposons un cadre appelé SeqFace pour l'apprentissage de caractéristiques faciales discriminantes. En plus d'un jeu de données traditionnel d'entraînement par identité, le SeqFace conçu peut former des CNNs en utilisant un jeu de données supplémentaire comprenant un grand nombre de séquences faciales extraites de vidéos. De plus, la régularisation par lissage des étiquettes (LSR) et une nouvelle perte d'agent séquentiel discriminant (DSA) proposée sont employées pour renforcer la puissance discriminante des caractéristiques faciales profondes en tirant pleinement parti des données séquentielles. Notre méthode obtient d'excellentes performances sur Labeled Faces in the Wild (LFW) et YouTube Faces (YTF), uniquement avec un seul ResNet. Le code et les modèles sont disponibles en ligne au public (https://github.com/huangyangyu/SeqFace).