Command Palette
Search for a command to run...
FaceNet : une représentation unifiée pour la reconnaissance et le regroupement faciaux
FaceNet : une représentation unifiée pour la reconnaissance et le regroupement faciaux
Schroff Florian Kalenichenko Dmitry Philbin James
Résumé
Malgré les progrès significatifs récents dans le domaine de la reconnaissance faciale, la mise en œuvre efficace de la vérification et de la reconnaissance faciale à grande échelle soulève des défis sérieux pour les approches actuelles. Dans cet article, nous présentons un système appelé FaceNet, qui apprend directement une application des images faciales vers un espace euclidien compact, où les distances correspondent directement à une mesure de similarité faciale. Une fois cet espace construit, des tâches telles que la reconnaissance faciale, la vérification et le regroupement peuvent être facilement réalisées à l’aide de techniques classiques, en utilisant les embeddings de FaceNet comme vecteurs de caractéristiques.Notre méthode repose sur un réseau convolutif profond entraîné pour optimiser directement l’embedding lui-même, plutôt que d’un étage intermédiaire (« bottleneck ») comme dans les approches précédentes basées sur l’apprentissage profond. Pour l’entraînement, nous utilisons des triplets de patches faciaux approximativement alignés (appariés/non-appariés), générés à l’aide d’une nouvelle méthode d’extraction en ligne de triplets. L’avantage de notre approche réside dans une efficacité représentationnelle nettement accrue : nous atteignons des performances de reconnaissance faciale de pointe en n’utilisant que 128 octets par visage.Sur le jeu de données largement utilisé Labeled Faces in the Wild (LFW), notre système atteint une précision record de 99,63 %. Sur YouTube Faces DB, il atteint 95,12 %. Par rapport au meilleur résultat publié, notre système réduit le taux d’erreur de 30 % sur les deux jeux de données.Nous introduisons également le concept d’embeddings harmoniques et une perte de triplet harmonique, qui décrivent différentes versions d’embeddings faciaux (produites par des réseaux différents) compatibles entre elles et permettant une comparaison directe entre elles.