DeepFace: Den Abstand zu menschlicher Leistungsfähigkeit bei der Gesichtsverifizierung schließen
In der modernen Gesichtserkennung besteht die herkömmliche Pipeline aus vier Schritten: Detektieren => Ausrichten => Repräsentieren => Klassifizieren. Wir überprüfen sowohl den Ausrichtungsschritt als auch den Repräsentationsschritt erneut, indem wir explizite 3D-Gesichtsmodelle einsetzen, um eine stückweise affine Transformation anzuwenden, und leiten eine Gesichtsrepräsentation aus einem neunschichtigen tiefen neuronalen Netzwerk ab. Dieses tiefe Netzwerk verfügt über mehr als 120 Millionen Parameter und nutzt mehrere lokal verbundene Schichten ohne Gewichtsteilung, im Gegensatz zu den herkömmlichen konvolutionellen Schichten. Daher wurde es auf dem bisher größten Gesichtsdatensatz trainiert – einem identitätsgekennzeichneten Datensatz mit vier Millionen Gesichtsbildern aus über 4.000 Identitäten.Die gelernten Repräsentationen, die die präzise modellbasierte Ausrichtung mit dem umfangreichen Gesichtsdatensatz kombinieren, generalisieren bemerkenswert gut auf Gesichter in unbegrenzten Umgebungen, selbst bei Verwendung eines einfachen Klassifizierers. Unsere Methode erreicht eine Genauigkeit von 97,35 % auf dem Labeled Faces in the Wild (LFW)-Datensatz und reduziert den Fehler der derzeitigen State-of-the-Art-Methoden um mehr als 27 %, wodurch menschennaher Leistung nahegekommen wird.