Deep Learning-Gesichtsrepräsentation durch die Vorhersage von 10.000 Klassen

Diese Arbeit schlägt vor, eine Reihe hochwertiger Merkmalsdarstellungen mittels Deep Learning zu erlernen, die als Deep Hidden Identity Features (DeepID) bezeichnet werden, für die Gesichtsverifikation. Wir argumentieren, dass DeepID effektiv durch anspruchsvolle Multi-Klassen-Gesichtsidentifikationsaufgaben gelernt werden kann, wobei die Merkmale gleichzeitig auf andere Aufgaben (z. B. Verifikation) und auf neue, im Trainingsdatensatz nicht vorkommende Identitäten generalisierbar sind. Zudem steigert sich die Generalisierungsfähigkeit von DeepID, je mehr Gesichtsklassen während des Trainings vorhergesagt werden müssen. Die DeepID-Merkmale werden aus den Aktivierungen der Neuronen der letzten versteckten Schicht tiefer konvolutioneller Netze (ConvNets) abgeleitet. Wenn diese tiefen ConvNets als Klassifikatoren trainiert werden, um etwa 10.000 Gesichtsidentitäten im Trainingsdatensatz zu erkennen, und dabei so konfiguriert sind, dass die Anzahl der Neuronen entlang der Merkmalsextraktionshierarchie kontinuierlich reduziert wird, bilden sich in den oberen Schichten der Netze schrittweise kompakte, identitätsbezogene Merkmale heraus, wobei nur eine geringe Anzahl an versteckten Neuronen verbleibt. Die vorgeschlagenen Merkmale werden aus verschiedenen Gesichtsregionen extrahiert, um ergänzende und überbestimmte Darstellungen zu erzeugen. Auf Basis dieser hochwertigen Merkmalsrepräsentationen können beliebige state-of-the-art-Klassifikatoren für die Gesichtsverifikation trainiert werden. Mit nur schwach ausgerichteten Gesichtern wird eine Verifikationsgenauigkeit von 97,45 % auf dem LFW-Datensatz erreicht.