Lernen tiefer globaler Multi-Skalen- und lokaler Aufmerksamkeitsmerkmale für die Gesichtsausdruckserkennung in der Wildnis
Die Erkennung von Gesichtsausdrücken im freien Umfeld (Facial Expression Recognition, FER in the wild) hat in der Forschung breite Aufmerksamkeit gefunden, wobei Verdeckung (Occlusion) und Veränderungen der Gesichtspose zwei zentrale Herausforderungen darstellen. In dieser Arbeit wird ein globales Multi-Skalen- und lokales Aufmerksamkeitsnetzwerk (MA-Net) für die FER im freien Umfeld vorgestellt. Konkret besteht das vorgeschlagene Netzwerk aus drei Hauptkomponenten: einem Feature-Pre-Extractor, einem Multi-Skalen-Modul und einem lokalen Aufmerksamkeitsmodul. Der Feature-Pre-Extractor dient zur Vorextraktion mittlerer Merkmale, das Multi-Skalen-Modul zur Fusions von Merkmalen mit unterschiedlichen Empfindlichkeitsfeldern, wodurch die Anfälligkeit tieferer Konvolutionen gegenüber Verdeckung und variierenden Gesichtsposen verringert wird. Das lokale Aufmerksamkeitsmodul ermöglicht es dem Netzwerk, sich auf lokale auffällige Merkmale zu konzentrieren, was die Störung durch Verdeckung und nicht-frontale Gesichtsposen bei der FER im freien Umfeld reduziert. Umfangreiche Experimente zeigen, dass das vorgeschlagene MA-Net auf mehreren Benchmark-Datenbanken für FER im freien Umfeld die bisher besten Ergebnisse erzielt: CAER-S (88,42 %), AffectNet-7 (64,53 %), AffectNet-8 (60,29 %), RAFDB (88,40 %) und SFEW (59,40 %).