ExpNet: Landmark-frei, tief, 3D-Gesichtsausdrücke

Wir beschreiben eine auf tiefem Lernen basierende Methode zur Schätzung von 3D-Gesichtsausdrucks-Koeffizienten. Im Gegensatz zu früheren Arbeiten verzichtet unser Prozess auf die Verwendung von Gesichtspunktdetektionsmethoden als Zwischenschritt. Neuere Methoden haben gezeigt, dass ein CNN trainiert werden kann, um genaue und diskriminative 3D-Morphable-Modelle (3DMM)-Darstellungen direkt aus Bildintensitäten zu regressieren. Durch das Weglassen der Gesichtspunktdetektion konnten diese Methoden Formen für verdeckte Gesichter schätzen, die unter bisher unbekannten Bedingungen im Freien auftreten. Wir bauen auf diesen Methoden auf, indem wir zeigen, dass auch Gesichtsausdrücke durch einen robusten, tiefen Ansatz ohne Landmarkdetektion geschätzt werden können. Unser ExpNet-CNN wird direkt auf die Intensitäten eines Gesichtsbildes angewendet und regressiert einen 29-dimensionalen Vektor von 3D-Ausdrucks-Koeffizienten. Wir schlagen eine einzigartige Methode vor, um Daten zum Trainieren dieses Netzwerks zu sammeln, indem wir die Robustheit tiefer Netzwerke gegenüber verrauschten Trainingslabels nutzen. Darüber hinaus bieten wir eine neue Möglichkeit zur Bewertung der Genauigkeit der geschätzten Ausdrucks-Koeffizienten: durch die Messung, wie gut sie die Gesichtsemotionen in den Emotionserkennungs-Benchmarks CK+ und EmotiW-17 erfassen. Wir zeigen, dass unser ExpNet Ausdrucks-Koeffizienten erzeugt, die besser zwischen verschiedenen Gesichtsemotionen diskriminieren als jene, die mit den neuesten Gesichtspunktdetektionsverfahren gewonnen werden. Zudem wächst dieser Vorteil mit abnehmender Bildskalierung, was beweist, dass unser ExpNet robuster gegenüber Skalenänderungen ist als Methoden der Landmarkdetektion. Schließlich erreicht unser ExpNet bei gleicher Genauigkeit eine Geschwindigkeit, die um mehrere Größenordnungen höher ist als die seiner Alternativen.