Tiefgelernte Gesichtsdarstellungen sind dünn besetzt, selektiv und robust.

Dieses Papier entwirft ein hochleistungsfähiges tiefes Faltungsnetzwerk (DeepID2+) für die Gesichtserkennung. Es wird mit dem Identifikations-Verifizierungssignal trainiert. Durch das Erhöhen der Dimension der verborgenen Darstellungen und das Hinzufügen von Überwachung zu frühen Faltungsschichten erreicht DeepID2+ neue Standarts auf den Benchmarks LFW und YouTube Faces. Durch empirische Studien wurden drei Eigenschaften seiner tiefen neuronalen Aktivierungen identifiziert, die für die hohe Leistung kritisch sind: Sparsamkeit, Selektivität und Robustheit.(1) Es wurde beobachtet, dass neuronale Aktivierungen moderat sparsam sind. Moderater Sparsamkeit maximiert sowohl die Diskriminierungskraft des tiefen Netzes als auch den Abstand zwischen Bildern. Überraschenderweise kann DeepID2+ trotz der Binarisierung der neuronalen Reaktionen eine hohe Erkennungsgenauigkeit erzielen.(2) Seine Neuronen in höheren Schichten sind sehr selektiv gegenüber Identitäten und identitätsbezogenen Attributen. Verschiedene Subsets von Neuronen können identifiziert werden, die entweder konstant aktiviert oder unterdrückt werden, wenn verschiedene Identitäten oder Attribute vorhanden sind. Obwohl DeepID2+ während des Trainings nicht gelehrt wird, Attribute zu unterscheiden, hat es solche hochstufige Konzepte implizit gelernt.(3) Es ist viel robuster gegenüber Verdeckungen, obwohl Muster von Verdeckungen nicht im Trainingsdatensatz enthalten sind.