Ein Dual-Directional-Attention-Mischfeature-Netzwerk für die Gesichtsausdrucks Erkennung
In den letzten Jahren hat die Gesichtsausdruckserkennung (Facial Expression Recognition, FER) erhebliche Aufmerksamkeit innerhalb der Forschung im Bereich des Computersehens erfahren. In diesem Beitrag wird ein innovatives Netzwerk namens Dual-Direction Attention Mixed Feature Network (DDAMFN) vorgestellt, das speziell für die FER entwickelt wurde und sowohl Robustheit als auch geringen Ressourcenverbrauch aufweist. Die Netzarchitektur besteht aus zwei Hauptkomponenten: dem Mixed Feature Network (MFN), das als Backbone dient, und dem Dual-Direction Attention Network (DDAN), das als Head fungiert. Um die Fähigkeiten des MFN zu verbessern, werden resiliente Merkmale durch den Einsatz von Kernen unterschiedlicher Größe extrahiert. Zudem wird ein neues Dual-Direction Attention (DDA)-Head vorgeschlagen, das Aufmerksamkeitskarten in zwei Orientierungen generiert, wodurch das Modell in der Lage ist, langreichweitige Abhängigkeiten effektiv zu erfassen. Um die Genauigkeit weiter zu steigern, wird eine neuartige Aufmerksamkeitsverlustfunktion für den DDAN eingeführt, bei der verschiedene Heads sich auf unterschiedliche Bereiche der Eingabe konzentrieren. Experimentelle Bewertungen an mehreren etablierten öffentlichen Datensätzen, darunter AffectNet, RAF-DB und FERPlus, belegen die Überlegenheit des DDAMFN gegenüber anderen bestehenden Modellen und etablieren das DDAMFN als das derzeit fortschrittlichste Modell im Bereich der FER.