FaceNet : Une représentation unifiée pour la reconnaissance et le regroupement faciaux

Malgré les avancées significatives récentes dans le domaine de la reconnaissance faciale, l'implémentation efficace de la vérification et de la reconnaissance faciale à grande échelle présente des défis sérieux aux approches actuelles. Dans cet article, nous présentons un système appelé FaceNet, qui apprend directement une carte d'images faciales vers un espace euclidien compact où les distances correspondent directement à une mesure de similarité faciale. Une fois cet espace produit, des tâches telles que la reconnaissance faciale, la vérification et le regroupement peuvent être facilement mises en œuvre en utilisant des techniques standard avec les plongements FaceNet comme vecteurs caractéristiques.Notre méthode utilise un réseau convolutif profond formé pour optimiser directement le plongement lui-même, plutôt qu'une couche intermédiaire de bouteille d'étranglement comme dans les approches précédentes basées sur l'apprentissage profond. Pour l'entraînement, nous utilisons des triplets de patches faciaux approximativement alignés et correspondants / non-correspondants générés par une nouvelle méthode d'extraction de triplets en ligne. L'avantage de notre approche est une efficacité représentationnelle beaucoup plus grande : nous obtenons des performances de reconnaissance faciale de pointe en utilisant seulement 128 octets par visage.Sur le jeu de données largement utilisé Labeled Faces in the Wild (LFW), notre système atteint une précision record de 99,63 %. Sur la base de données YouTube Faces DB, il atteint 95,12 %. Notre système réduit le taux d'erreur par rapport au meilleur résultat publié de 30 % sur les deux jeux de données.Nous introduisons également le concept de plongements harmoniques et d'une perte triplet harmonique, qui décrivent différentes versions de plongements faciaux (produits par différents réseaux) qui sont compatibles entre elles et permettent une comparaison directe entre elles.