Tief strukturierte Vorhersage für die Gesichtslandmarkenerkennung

Bekannte auf tiefen Lernverfahren basierende Methoden zur Gesichtslandmarkenerkennung haben hervorragende Leistungen erzielt. Diese Ansätze integrieren jedoch die strukturellen Abhängigkeiten zwischen den Landmarkenpunkten nicht explizit. Daher können sie die geometrischen Beziehungen zwischen den Landmarkenpunkten nicht effektiv bewahren und weisen eine begrenzte Verallgemeinerungsfähigkeit bei anspruchsvollen Bedingungen oder unbekannten Daten auf. In diesem Artikel wird eine Methode zur tiefen strukturierten Gesichtslandmarkenerkennung vorgestellt, die einen tiefen Faltungsnetzwerk (Convolutional Network) mit einem bedingten zufälligen Feld (Conditional Random Field) kombiniert. Wir zeigen, dass die vorgeschlagene Methode gegenüber bestehenden state-of-the-art-Techniken in der Gesichtslandmarkenerkennung eine überlegene Leistung erbringt, insbesondere hinsichtlich einer verbesserten Verallgemeinerungsfähigkeit auf anspruchsvolle Datensätze, die große Posevariationen und Verdeckung enthalten.