Gesichtsausdruckserkennung: Stand der Technik-Leistung auf FER2013

Die Erkennung von Gesichtsausdrücken (Facial Emotion Recognition, FER) ist für die Mensch-Computer-Interaktion von großer Bedeutung, beispielsweise in klinischen Anwendungen oder der Beschreibung von Verhaltensweisen. Die genaue und robuste FER durch Computermodelle bleibt aufgrund der Heterogenität menschlicher Gesichter sowie bildbedingter Variationen wie unterschiedlicher Gesichtspose und Beleuchtung weiterhin herausfordernd. Unter den verschiedenen Ansätzen zur FER haben tiefgreifende Lernmodelle, insbesondere Convolutional Neural Networks (CNNs), aufgrund ihrer starken Fähigkeit zur automatischen Merkmalsextraktion und ihrer rechnerischen Effizienz großes Potenzial gezeigt. In dieser Arbeit erreichen wir die höchste Einzelnetz-Klassifizierungsgenauigkeit auf dem FER2013-Datensatz. Wir nutzen die VGGNet-Architektur, optimieren deren Hyperparameter sorgfältig und testen verschiedene Optimierungsmethoden. Sofern uns bekannt ist, erreicht unser Modell ohne Verwendung zusätzlicher Trainingsdaten eine state-of-the-art-Einzelnetz-Genauigkeit von 73,28 % auf dem FER2013-Datensatz.