vor 17 Tagen

Lernen von Vision Transformer mit Squeeze-and-Excitation für die Gesichtsausdruckserkennung

Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier

Abstract

In den letzten Jahrzehnten wurden zahlreiche Datensätze zu Gesichtsausdrücken zugänglich gemacht, wodurch die Aufgabe der Gesichtsausdruckserkennung (Facial Expression Recognition, FER) erhebliches Interesse geweckt hat. Die Vielzahl der verfügbaren Datensätze wirft jedoch mehrere Herausforderungen für die Gesichtserkennung auf. Diese Herausforderungen werden typischerweise durch Architekturen basierend auf Convolutional Neural Networks (CNN) angegangen. Im Gegensatz zu CNN-Modellen wurde kürzlich ein Transformer-Modell, das auf einem Aufmerksamkeitsmechanismus basiert, für visuelle Aufgaben vorgestellt. Ein zentrales Problem bei Transformers ist der Bedarf an großen Datenmengen für das Training, während die meisten FER-Datensätze im Vergleich zu anderen visuellen Anwendungen begrenzt sind. Daher schlagen wir in diesem Artikel vor, einen Vision-Transformer gemeinsam mit einem Squeeze-and-Excitation (SE)-Block für die FER-Aufgabe zu lernen. Die vorgeschlagene Methode wird auf mehreren öffentlich verfügbaren FER-Datensätzen, darunter CK+, JAFFE, RAF-DB und SFEW, evaluiert. Experimente zeigen, dass unser Modell sowohl auf CK+ als auch auf SFEW die derzeit besten Ansätze übertrifft und auf JAFFE und RAF-DB konkurrenzfähige Ergebnisse erzielt.