CAGE: Circumplex-Affekt-gesteuerte Ausdrucksinferenz

Das Verständnis von Emotionen und Ausdrücken ist ein Thema von Interesse in mehreren Disziplinen, insbesondere zur Verbesserung der Benutzererfahrung. Im Gegensatz zur verbreiteten Annahme hat sich gezeigt, dass Emotionen keine diskreten Entitäten sind, sondern vielmehr entlang eines Kontinuums existieren. Menschen verstehen diskrete Emotionen aufgrund verschiedener Faktoren – wie kultureller Hintergründe, individueller Erfahrungen und kognitiver Verzerrungen – unterschiedlich. Daher sind die meisten Ansätze zur Ausdrucksinterpretation, insbesondere jene, die auf diskreten Kategorien basieren, inhärent verzerrt. In diesem Artikel präsentieren wir eine vergleichende, tiefgehende Analyse zweier gängiger Datensätze (AffectNet und EMOTIC), die jeweils die Komponenten des Circumplex-Modells der Affekte enthalten. Darüber hinaus stellen wir ein Modell zur Vorhersage facialer Ausdrücke vor, das speziell für leichte Anwendungen konzipiert ist. Unter Verwendung einer kleinskaligen MaxViT-basierten Architektur untersuchen wir den Einfluss diskreter Ausdruckskategorien im Training im Vergleich zu kontinuierlichen Valenz- und Aufregungsetiketten. Wir zeigen, dass die Berücksichtigung von Valenz und Aufregung zusätzlich zu diskreten Kategorien die Genauigkeit der Ausdrucksinferenz erheblich verbessert. Das vorgeschlagene Modell erreicht auf AffectNet eine bessere Leistung als die derzeitigen State-of-the-Art-Modelle und stellt damit das bestleistende Modell zur Inferenz von Valenz und Aufregung dar, wobei ein 7 % niedrigerer RMSE erzielt wird. Trainings-Skripte und die entsprechenden trainierten Gewichte zur Reproduktion unserer Ergebnisse sind hier verfügbar: https://github.com/wagner-niklas/CAGE_expression_inference.