HyperFace: Ein tiefes Mehrfachlernframework für Gesichtserkennung, Landmarkenlokalisation, Pose-Schätzung und Geschlechtsidentifizierung

Wir präsentieren einen Algorithmus zur gleichzeitigen Gesichtserkennung, Landmark-Lokalisierung, Pose-Schätzung und Geschlechtsidentifizierung unter Verwendung tiefer Faltungsneuronaler Netze (CNN). Die vorgeschlagene Methode, HyperFace genannt, fusioniert die Zwischenschichten eines tiefen CNN mittels eines separaten CNN, gefolgt von einem Multi-Task-Lernalgorithmus, der auf den fusionierten Merkmalen operiert. Sie nutzt die Synergie zwischen den Aufgaben, was ihre individuellen Leistungen erheblich verbessert. Darüber hinaus schlagen wir zwei Varianten von HyperFace vor: (1) HyperFace-ResNet, das auf dem ResNet-101-Modell basiert und eine erhebliche Leistungssteigerung erreicht, und (2) Fast-HyperFace, das einen hochrekallierenden schnellen Gesichtserkennungsdetektor verwendet, um Regionenvorschläge zu generieren und so die Geschwindigkeit des Algorithmus zu erhöhen. Umfangreiche Experimente zeigen, dass die vorgeschlagenen Modelle sowohl globale als auch lokale Informationen in Gesichtern erfassen können und bei jeder dieser vier Aufgaben erheblich besser performieren als viele wettbewerbsfähige Algorithmen.