HyperAIHyperAI

Command Palette

Search for a command to run...

Gesichtsausdruckserkennung mit grid-weisem Attention und Visual Transformer

Fan Jiang Xizhe Wang Changqin Huang Qionghao Huang

Zusammenfassung

Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) hat dank des Einsatzes von Faltungsneuralen Netzen (Convolutional Neural Networks, CNN) beachtliche Fortschritte erzielt. Die räumliche Lokalität der Faltungsschichten in CNN führt jedoch dazu, dass in den meisten neuronalen Schichten langreichweitige induktive Voreingenommenheiten zwischen verschiedenen Gesichtsregionen nicht erlernt werden können. Dadurch bleibt die Leistungsfähigkeit von CNN-basierten Modellen für die FER weiterhin eingeschränkt. Um dieses Problem anzugehen, stellt dieser Artikel einen neuartigen FER-Framework mit zwei Aufmerksamkeitsmechanismen für CNN-basierte Modelle vor, wobei jeder Mechanismus jeweils für die Lernung von niedrigstufigen Merkmalen und hochstufigen semantischen Repräsentationen verantwortlich ist. Insbesondere wird im Bereich der niedrigstufigen Merkmalslernung ein gitterartiger Aufmerksamkeitsmechanismus vorgeschlagen, um Abhängigkeiten zwischen verschiedenen Regionen eines Gesichtsausdrucksbildes zu erfassen, sodass die Parameteraktualisierung der Faltungsschichten im Prozess der niedrigstufigen Merkmalslernung regularisiert wird. Im Bereich der hochstufigen semantischen Repräsentation nutzt ein visueller Transformer-Aufmerksamkeitsmechanismus eine Folge von visuellen semantischen Tokens (aus pyramidenförmigen Merkmalen der höheren Faltungsschichtblöcke generiert), um globale Repräsentationen zu erlernen. Umfassende Experimente wurden auf drei öffentlichen Datensätzen zur Gesichtsausdruckserkennung durchgeführt: CK+, FER+ und RAF-DB. Die Ergebnisse zeigen, dass unser FER-VT-Modell auf diesen Datensätzen eine state-of-the-art-Leistung erzielt, insbesondere mit einer 100-prozentigen Genauigkeit auf dem CK+-Datensatz ohne Verwendung zusätzlicher Trainingsdaten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gesichtsausdruckserkennung mit grid-weisem Attention und Visual Transformer | Paper | HyperAI