Gemeinsame Gesichtserkennung und -ausrichtung mit mehrfach aufgabenbasierten kaskadierten Faltungsnetzen

Das Gesichtserkennungs- und -ausrichtungsproblem in ungesteuerten Umgebungen ist aufgrund verschiedener Pose, Beleuchtung und Verdeckungen herausfordernd. Neueste Studien zeigen, dass tiefenlernenbasierte Ansätze beeindruckende Leistungen bei diesen beiden Aufgaben erzielen können. In dieser Arbeit schlagen wir einen tiefen kaskadierten Mehrfachaufgabenrahmen vor, der die inhärente Korrelation zwischen ihnen nutzt, um ihre Leistung zu steigern. Insbesondere verwendet unser Rahmen eine kaskadierte Struktur mit drei Stufen sorgfältig gestalteter tiefer Faltungsschichten (Convolutional Networks), die die Gesichts- und Landmarkpositionierung in einem Schritt von grob zu fein vorhersagen. Darüber hinaus schlagen wir im Lernprozess eine neue Online-Hard-Sample-Mining-Strategie vor, die die Leistung automatisch verbessern kann, ohne manuelle Stichprobenauswahl. Unsere Methode erreicht eine überlegene Genauigkeit gegenüber den bislang besten Techniken auf den anspruchsvollen Benchmarks FDDB und WIDER FACE für Gesichtserkennung sowie AFLW für Gesichtsausrichtung, wobei sie gleichzeitig Echtzeitleistung beibehält.