EmoNeXt: eine angepasste ConvNeXt für die Erkennung von Gesichtsausdrücken

Gesichtsausdrücke spielen eine entscheidende Rolle in der menschlichen Kommunikation und dienen als mächtiges und wirksames Mittel zur Ausdrucksweise einer breiten Palette von Emotionen. Mit Fortschritten im Bereich Künstliche Intelligenz und Computer Vision sind tiefe Neuronale Netze zu effektiven Werkzeugen für die Erkennung von Gesichtsemotionen geworden. In dieser Arbeit schlagen wir EmoNeXt vor, ein neues tiefes Lernframework für die Erkennung von Gesichtsausdrücken, das auf einem angepassten ConvNeXt-Architektur-Netzwerk basiert. Wir integrieren ein räumliches Transformer-Netzwerk (Spatial Transformer Network, STN), um auf feature-reiche Bereiche des Gesichts zu fokussieren, sowie Squeeze-and-Excitation-Blöcke, um kanalweise Abhängigkeiten zu erfassen. Darüber hinaus führen wir einen Selbst-Aufmerksamkeits-Regularisierungsterm ein, der das Modell dazu anregt, kompakte Feature-Vektoren zu generieren. Wir zeigen die Überlegenheit unseres Modells gegenüber den aktuellen besten tiefen Lernmodellen anhand der FER2013-Datensatz bezüglich der Genauigkeit der Emotionsklassifizierung.