Reconnaissance Faciale Utilisant des Représentations Multiposes Profondes

Nous présentons notre méthode et système de reconnaissance faciale utilisant plusieurs modèles d'apprentissage profond sensibles à la pose. Dans notre représentation, une image de visage est traitée par plusieurs modèles de réseaux neuronaux convolutifs (CNN) spécifiques à la pose pour générer des caractéristiques spécifiques à chaque pose. Le rendu 3D est utilisé pour générer plusieurs poses de visage à partir de l'image d'entrée. La sensibilité du système de reconnaissance aux variations de pose est réduite grâce à l'utilisation d'un ensemble de caractéristiques CNN spécifiques à la pose. L'article présente des résultats expérimentaux approfondis sur l'effet de la détection des points clés, du choix des couches CNN et du choix du modèle de pose sur les performances du pipeline de reconnaissance. Notre nouvelle représentation obtient des résultats supérieurs à l'état de l'art sur les tâches de vérification et d'identification (c'est-à-dire recherche) des bases IARPA CS2 et NIST IJB-A.