Gesichtserkennung mit end-to-end Integration eines ConvNets und eines 3D-Modells

Dieses Papier stellt eine Methode zur Gesichtserkennung in der Wildbahn vor, die ein ConvNet und ein 3D-Mittelgesichtsmodell in einem end-to-end Multi-Task Diskriminativen Lernrahmen integriert. Das 3D-Mittelgesichtsmodell ist vorgegeben und fixiert (z.B., wir haben das Modell aus dem AFLW-Datensatz verwendet). Das ConvNet besteht aus zwei Komponenten: (i) Die Gesichtsvorschlagskomponente berechnet Vorschläge für Gesichtsbounding Boxes durch die Schätzung von Gesichtspunkten und den 3D-Transformationsparametern (Rotation und Translation) für jeden vorhergesagten Punkt im Verhältnis zum 3D-Mittelgesichtsmodell. (ii) Die Gesichtsverifikationskomponente berechnet Erkennungsergebnisse durch das Prüfen und Verfeinern der Vorschläge basierend auf der Konfigurationspooling der Gesichtspunkte. Die vorgeschlagene Methode löst zwei Probleme bei der Anpassung von state-of-the-art generischen Objekterkennungs-ConvNets (z.B., Faster R-CNN) für die Gesichtserkennung: (i) Eines ist die Beseitigung des heuristischen Designs vorgegebener Anchor Boxes im Region Proposal Network (RPN) durch die Nutzung eines 3D-Mittelgesichtsmodells. (ii) Das andere ist die Ersetzung des generischen RoI-Pooling-Layers durch einen Konfigurationspooling-Layer, um die zugrunde liegende Objektstruktur zu berücksichtigen. Der Multi-Task-Verlust besteht aus drei Teilen: dem Klassifizierungs-Softmax-Verlust sowie den lokalen glatten L1-Verlusten [14] sowohl der Gesichtspunkte als auch der Gesichtsbounding Boxes. In Experimenten wird unser ConvNet ausschließlich auf dem AFLW-Datensatz trainiert und auf dem FDDB-Benchmark getestet, wobei Feintuning durchgeführt wird, sowie auf dem AFW-Benchmark ohne Feintuning. Die vorgeschlagene Methode erzielt sehr wettbewerbsfähige state-of-the-art Ergebnisse in beiden Benchmarks.