Gesichtsausdruckserkennung mit grid-weisem Attention und Visual Transformer
Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) hat dank des Einsatzes von Faltungsneuralen Netzen (Convolutional Neural Networks, CNN) beachtliche Fortschritte erzielt. Die räumliche Lokalität der Faltungsschichten in CNN führt jedoch dazu, dass in den meisten neuronalen Schichten langreichweitige induktive Voreingenommenheiten zwischen verschiedenen Gesichtsregionen nicht erlernt werden können. Dadurch bleibt die Leistungsfähigkeit von CNN-basierten Modellen für die FER weiterhin eingeschränkt. Um dieses Problem anzugehen, stellt dieser Artikel einen neuartigen FER-Framework mit zwei Aufmerksamkeitsmechanismen für CNN-basierte Modelle vor, wobei jeder Mechanismus jeweils für die Lernung von niedrigstufigen Merkmalen und hochstufigen semantischen Repräsentationen verantwortlich ist. Insbesondere wird im Bereich der niedrigstufigen Merkmalslernung ein gitterartiger Aufmerksamkeitsmechanismus vorgeschlagen, um Abhängigkeiten zwischen verschiedenen Regionen eines Gesichtsausdrucksbildes zu erfassen, sodass die Parameteraktualisierung der Faltungsschichten im Prozess der niedrigstufigen Merkmalslernung regularisiert wird. Im Bereich der hochstufigen semantischen Repräsentation nutzt ein visueller Transformer-Aufmerksamkeitsmechanismus eine Folge von visuellen semantischen Tokens (aus pyramidenförmigen Merkmalen der höheren Faltungsschichtblöcke generiert), um globale Repräsentationen zu erlernen. Umfassende Experimente wurden auf drei öffentlichen Datensätzen zur Gesichtsausdruckserkennung durchgeführt: CK+, FER+ und RAF-DB. Die Ergebnisse zeigen, dass unser FER-VT-Modell auf diesen Datensätzen eine state-of-the-art-Leistung erzielt, insbesondere mit einer 100-prozentigen Genauigkeit auf dem CK+-Datensatz ohne Verwendung zusätzlicher Trainingsdaten.