KEPLER: Keypoint- und Pose-Schätzung von unbeschränkten Gesichtern durch das Lernen effizienter H-CNN-Regressoren

Die Erkennung von Keypoints ist einer der wichtigsten Vorverarbeitungsschritte bei Aufgaben wie Gesichtsmodellierung, -erkennung und -verifizierung. In dieser Arbeit stellen wir eine iterative Methode zur Keypoint-Schätzung und Pose-Vorhersage von unbeschränkten Gesichtern vor, die auf dem Lernen effizienter H-CNN-Regressoren (KEPLER) basiert, um das Problem der Gesichtsausrichtung zu lösen. Aktuelle Methoden auf dem Stand der Technik haben durch den Einsatz von Faltungsneuronalen Netzen (CNNs) Verbesserungen in der Gesichtskeypoint-Erkennung gezeigt. Obwohl ein einfaches Feed-Forward-Neuronales Netz die Zuordnung zwischen Eingangs- und Ausgangsraum lernen kann, kann es nicht die inhärenten strukturellen Abhängigkeiten erfassen. Wir präsentieren eine neuartige Architektur namens H-CNN (Heatmap-CNN), die strukturierte globale und lokale Merkmale erfasst und somit eine genaue Keypoint-Erkennung fördert. Das H-CNN wird gemeinsam auf der Sichtbarkeit, den Merkmalpunkten (fiducials) und der 3D-Pose des Gesichtes trainiert. Mit fortschreitenden Iterationen verringert sich der Fehler, was zu kleiner werdenden Gradienten führt und somit eine effiziente Schulung von tiefen CNNs (DCNNs) erforderlich macht, um dies zu kompensieren. KEPLER führt in den ersten vier Iterationen globale Korrekturen in Pose und Merkmalpunkten durch, gefolgt von lokalen Korrekturen in der nachfolgenden Phase. Als Nebeneffekt liefert KEPLER auch die 3D-Pose (Nick-, Schwenk- und Rollwinkel) des Gesichtes genau. In dieser Arbeit zeigen wir, dass KEPLER ohne Verwendung irgendeiner 3D-Information Methoden auf dem aktuellen Stand der Technik bei der Ausrichtung auf anspruchsvollen Datensätzen wie AFW und AFLW übertrifft.