Command Palette
Search for a command to run...
POSTER++: Ein einfacheres und leistungsfähigeres Netzwerk für die Gesichtsausdruckserkennung
POSTER++: Ein einfacheres und leistungsfähigeres Netzwerk für die Gesichtsausdruckserkennung
Jiawei Mao Rui Xu Xuesong Yin Yuanqi Chang Binling Nie Aibin Huang
Zusammenfassung
Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) spielt eine entscheidende Rolle in zahlreichen Anwendungen im Bereich der Mensch-Computer-Interaktion. POSTER erreicht durch eine effektive Kombination von Gesichtslandmarken- und Bilddaten mittels eines zweistrombasierten Pyramiden-Cross-Fusion-Designs die derzeit beste Leistung (State-of-the-Art, SOTA) in der FER. Allerdings ist die Architektur von POSTER zweifellos komplex und verursacht hohe Rechenkosten. Um die rechnerische Belastung von POSTER zu verringern, schlagen wir in diesem Artikel POSTER++ vor. Dieses verbessert POSTER in drei zentralen Aspekten: Cross-Fusion, zweistromige Architektur und mehrskalige Merkmalsextraktion. Bei der Cross-Fusion ersetzen wir die herkömmliche Cross-Attention-Mechanismus durch einen fensterbasierten Cross-Attention-Ansatz. Wir entfallen die Bild-zu-Landmark-Verzweigung im zweistromigen Design. Bei der mehrskaligen Merkmalsextraktion kombiniert POSTER++ Bilder mit mehrskaligen Merkmalen der Landmarken, um das Pyramiden-Design von POSTER zu ersetzen. Umfangreiche Experimente auf mehreren Standard-Datensätzen zeigen, dass POSTER++ die SOTA-Leistung in der FER erreicht, jedoch mit minimalen Rechenkosten. Beispielsweise erzielt POSTER++ auf RAF-DB 92,21 %, auf AffectNet (7 Klassen) 67,49 % und auf AffectNet (8 Klassen) 63,77 %, wobei lediglich 8,4 G FLOPs (Floating Point Operations) und 43,7 M Parameter (Param) benötigt werden. Dies belegt die Wirksamkeit unserer Verbesserungen.