Command Palette
Search for a command to run...
FaceNet: Eine einheitliche Einbettung für Gesichtserkennung und Clustering
FaceNet: Eine einheitliche Einbettung für Gesichtserkennung und Clustering
Schroff Florian Kalenichenko Dmitry Philbin James
Zusammenfassung
Trotz erheblicher neuerer Fortschritte im Bereich der Gesichtserkennung stellen die effiziente Implementierung von Gesichtsverifikation und -erkennung in großem Maßstab erhebliche Herausforderungen für derzeitige Ansätze dar. In diesem Artikel stellen wir ein System namens FaceNet vor, das direkt eine Abbildung von Gesichtsbildern in einen kompakten euklidischen Raum lernt, in dem Abstände direkt einer Maßzahl für die Gesichtsähnlichkeit entsprechen. Sobald dieser Raum generiert wurde, können Aufgaben wie Gesichtserkennung, -verifikation und -clustering mithilfe etablierter Techniken einfach durchgeführt werden, wobei FaceNet-Embeddings als Merkmalsvektoren verwendet werden.Unser Ansatz nutzt ein tiefes konvolutionales Netzwerk, das direkt auf die Optimierung der Embedding-Darstellung selbst trainiert wird, im Gegensatz zu vorherigen tiefen Lernansätzen, die eine Zwischenschicht (Bottleneck-Layer) optimierten. Zur Trainingsphase verwenden wir Tripletts aus annähernd ausgerichteten passenden/unpassenden Gesichtspatches, die mittels einer neuartigen Online-Triplet-Mining-Methode generiert werden. Der Vorteil unseres Ansatzes liegt in einer deutlich höheren repräsentativen Effizienz: Wir erreichen eine state-of-the-art-Leistung bei der Gesichtserkennung mit lediglich 128 Bytes pro Gesicht.Auf dem weit verbreiteten Labeled Faces in the Wild (LFW)-Datensatz erreicht unser System eine neue Rekordgenauigkeit von 99,63 %. Auf dem YouTube Faces DB-Datensatz erzielen wir eine Genauigkeit von 95,12 %. Im Vergleich zum besten bisher veröffentlichten Ergebnis senkt unser System die Fehlerrate auf beiden Datensätzen um 30 %.Zudem führen wir den Begriff der harmonischen Embeddings sowie eine harmonische Triplet-Loss-Funktion ein, die verschiedene Versionen von Gesichts-Embeddings (die durch unterschiedliche Netzwerke erzeugt wurden) beschreiben, die miteinander kompatibel sind und eine direkte Vergleichbarkeit untereinander ermöglichen.