Vision Transformer mit Aufmerksamkeitspooling für robuste Gesichtsausdruckserkennung

Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) in natürlichen Umgebungen stellt eine äußerst herausfordernde Aufgabe dar. In jüngster Zeit wurden einige Vision Transformers (ViT) für die FER untersucht, doch die meisten dieser Ansätze erzielen im Vergleich zu herkömmlichen Convolutional Neural Networks (CNN) eine schlechtere Leistung. Dies liegt hauptsächlich daran, dass die neu vorgeschlagenen Module aufgrund fehlender induktiver Vorkenntnisse (inductive bias) nur schwer von Grund auf konvergieren und tendenziell auf ockludierte oder verrauschte Bereiche fokussieren. TransFER, eine repräsentative transformerbasierte Methode für die FER, reduziert dieses Problem durch mehrfach verzweigtes Aufmerksamkeits-Downsampling, erzeugt jedoch einen übermäßigen Rechenaufwand. Im Gegensatz dazu stellen wir zwei Aufmerksamkeits-pooling-Module (Attentive Pooling, AP) vor, die verrauschte Merkmale direkt aggregieren. Diese AP-Module umfassen das Attentive Patch Pooling (APP) und das Attentive Token Pooling (ATP). Ziel ist es, das Modell zu leiten, die aussagekräftigsten Merkmale zu betonen, während die Auswirkungen weniger relevanter Merkmale reduziert werden. Das vorgeschlagene APP selektiert die informativsten Patch-Features aus CNN-Output, während ATP unwichtige Tokens im ViT entfernt. Aufgrund ihrer einfachen Implementierbarkeit und des Fehlens von lernbaren Parametern senken APP und ATP intuitiv den Rechenaufwand, gleichzeitig steigern sie die Leistung, indem sie ausschließlich auf die aussagekräftigsten Merkmale fokussieren. Qualitative Ergebnisse belegen die Motivation und Wirksamkeit unserer Aufmerksamkeits-pooling-Module. Zudem übertrifft unsere Methode auf sechs in-the-wild-Datensätzen die Leistung aller anderen state-of-the-art-Verfahren quantitativ.