Pose-Invariante Gesichtsausrichtung mit einem einzigen CNN

Die Gesichtsausrichtung (face alignment) hat in den letzten zehn Jahren erhebliche Fortschritte gemacht. Ein jüngeres Schwerpunktthema war die Ausrichtung einer dichten 3D-Gesichtsform auf Gesichtsbilder mit großen Kopfhaltungen. Die vorherrschende Technologie, die hierfür verwendet wird, basiert auf einer Kaskade von Regressoren, wie zum Beispiel CNNs (Convolutional Neural Networks), die vielversprechende Ergebnisse gezeigt haben. Dennoch leidet die Kaskade von CNNs an mehreren Nachteilen, wie zum Beispiel dem Fehlen einer end-to-end-Ausbildung, manuell gestalteten Merkmalen und langsamen Trainingsgeschwindigkeiten. Um diese Probleme zu lösen, schlagen wir eine neue Schicht vor, die Visualisierungsschicht (visualization layer), die in die CNN-Architektur integriert werden kann und eine gemeinsame Optimierung mit verschiedenen Verlustfunktionen ermöglicht. Eine umfangreiche Bewertung der vorgeschlagenen Methode auf mehreren Datensätzen zeigt eine Stand-der-Technik-Genauigkeit, während sie gleichzeitig den Trainingszeitrahmen gegenüber der üblichen Kaskade von CNNs um mehr als die Hälfte reduziert. Darüber hinaus vergleichen wir mehrere CNN-Architekturen mit der Visualisierungsschicht, um den Vorteil ihrer Nutzung weiter zu unterstreichen.