FaceNet: Ein einheitliches Embedding für die Gesichtserkennung und -clustering

Trotz erheblicher Fortschritte im Bereich der Gesichtserkennung stellen die effiziente Implementierung von Gesichtsverifikation und -erkennung in großem Umfang ernsthafte Herausforderungen für aktuelle Ansätze dar. In dieser Arbeit stellen wir ein System vor, das FaceNet genannt wird. FaceNet lernt direkt eine Abbildung von Gesichtsbildern in einen kompakten euklidischen Raum, in dem Abstände einem Maß für die Gesichtssimilarität entsprechen. Sobald dieser Raum erstellt wurde, können Aufgaben wie Gesichtserkennung, Verifikation und Clustering mithilfe standardisierter Techniken leicht implementiert werden, wobei die FaceNet-Embeddings als Merkmalsvektoren verwendet werden.Unsere Methode verwendet ein tiefes Faltungsnetzwerk, das direkt optimiert wird, um das Embedding selbst zu verbessern, anstatt wie bei früheren Tiefenlernansätzen auf eine Zwischenschicht (Bottleneck Layer) zu trainieren. Zum Training verwenden wir Triplets von grob ausgerichteten übereinstimmenden / nicht übereinstimmenden Gesichtspatches, die mittels einer neuartigen Online-Triplet-Mining-Methode generiert werden. Der Vorteil unseres Ansatzes liegt in einer viel größeren Repräsentations-effizienz: Wir erreichen den aktuellen Stand der Technik bei der Gesichtserkennung mit nur 128 Byte pro Gesicht.Auf dem weit verbreiteten Datensatz „Labeled Faces in the Wild“ (LFW) erreicht unser System eine neue Rekordgenauigkeit von 99,63 %. Auf dem YouTube Faces DB-Datensatz erreicht es 95,12 %. Unser System reduziert den Fehler rate im Vergleich zum besten veröffentlichten Ergebnis auf beiden Datensätzen um 30 %.Darüber hinaus führen wir den Begriff der harmonischen Embeddings sowie einen harmonischen Triplettenverlust ein. Diese Konzepte beschreiben verschiedene Versionen von Gesichtsembeddings (von verschiedenen Netzen produziert), die miteinander verträglich sind und einen direkten Vergleich zulassen.