POSTER++: Ein einfacheres und leistungsfähigeres Netzwerk für die Gesichtsausdruckserkennung

Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) spielt eine entscheidende Rolle in zahlreichen Anwendungen im Bereich der Mensch-Computer-Interaktion. POSTER erreicht durch eine effektive Kombination von Gesichtslandmarken- und Bilddaten mittels eines zweistrombasierten Pyramiden-Cross-Fusion-Designs die derzeit beste Leistung (State-of-the-Art, SOTA) in der FER. Allerdings ist die Architektur von POSTER zweifellos komplex und verursacht hohe Rechenkosten. Um die rechnerische Belastung von POSTER zu verringern, schlagen wir in diesem Artikel POSTER++ vor. Dieses verbessert POSTER in drei zentralen Aspekten: Cross-Fusion, zweistromige Architektur und mehrskalige Merkmalsextraktion. Bei der Cross-Fusion ersetzen wir die herkömmliche Cross-Attention-Mechanismus durch einen fensterbasierten Cross-Attention-Ansatz. Wir entfallen die Bild-zu-Landmark-Verzweigung im zweistromigen Design. Bei der mehrskaligen Merkmalsextraktion kombiniert POSTER++ Bilder mit mehrskaligen Merkmalen der Landmarken, um das Pyramiden-Design von POSTER zu ersetzen. Umfangreiche Experimente auf mehreren Standard-Datensätzen zeigen, dass POSTER++ die SOTA-Leistung in der FER erreicht, jedoch mit minimalen Rechenkosten. Beispielsweise erzielt POSTER++ auf RAF-DB 92,21 %, auf AffectNet (7 Klassen) 67,49 % und auf AffectNet (8 Klassen) 63,77 %, wobei lediglich 8,4 G FLOPs (Floating Point Operations) und 43,7 M Parameter (Param) benötigt werden. Dies belegt die Wirksamkeit unserer Verbesserungen.