Emotionstrennung und -erkennung aus Gesichtsausdrücken durch Generierung eines Pokerfaces mit Vision Transformers

Darstellungslernen und Merkmalsentflechtung haben in der Forschung zum facialen Ausdruckserkennung (Facial Expression Recognition, FER) erhebliches Interesse geweckt. Die inhärente Mehrdeutigkeit von Emotionslabels stellt eine Herausforderung für herkömmliche überwachte Darstellungslernmethoden dar. Zudem fehlt bei der direkten Lernung der Abbildung von einem facialen Ausdrucksbild auf ein Emotionslabel eine explizite Überwachungssignale zur Erfassung feinabgestimmter Gesichtsmerkmale. In diesem Paper stellen wir ein neuartiges FER-Modell namens Poker Face Vision Transformer (PF-ViT) vor, um diese Herausforderungen zu bewältigen. PF-ViT zielt darauf ab, die störungsinvariante Emotion aus einem statischen Gesichtsbild zu separieren und zu erkennen, indem es dessen entsprechende „Pokerface“ (ausdruckslose Gesichtsform) generiert, ohne dass gepaarte Bilder erforderlich sind. Inspiriert durch das Facial Action Coding System (FACS) betrachten wir ein ausdrucksstarkes Gesicht als Kombination einer Reihe von Gesichtsmuskelsbewegungen auf einer „Pokerface“ (d. h. einer emotionslosen Gesichtsform). PF-ViT nutzt herkömmliche Vision Transformers, deren Komponenten zunächst als Masked Autoencoder auf einer großen, emotionslosen Gesichtsausdrucksdatenbank ohne Emotionslabels vortrainiert werden, wodurch hervorragende Darstellungen entstehen. Anschließend trainieren wir PF-ViT im Rahmen eines GAN-Rahmens. Während des Trainings fördert die Hilfsaufgabe der Pokerface-Generierung die Entflechtung zwischen emotionalen und emotionsunabhängigen Komponenten und leitet das FER-Modell an, diskriminative Gesichtsdetails ganzheitlich zu erfassen. Quantitative und qualitative Ergebnisse belegen die Wirksamkeit unseres Ansatzes, der die derzeit besten Methoden auf vier gängigen FER-Datensätzen übertrifft.