ResEmoteNet: Die Brücke zwischen Genauigkeit und Verlustreduzierung bei der Erkennung von Gesichtsausdrücken

Das menschliche Gesicht ist ein stummer Kommunikator, der Emotionen und Gedanken durch Mimik ausdrückt. Dank der Fortschritte im Bereich der Computer Vision in den letzten Jahren hat die Technologie zur Erkennung von Gesichtsemotionen erhebliche Fortschritte gemacht, was Maschinen ermöglicht, die Feinheiten von Gesichtsausdrücken zu entschlüsseln. In dieser Arbeit schlagen wir ResEmoteNet vor, eine neuartige Deep-Learning-Architektur für die Erkennung von Gesichtsemotionen, die auf einer Kombination aus Faltungsnetzen (Convolutional), Squeeze-Excitation (SE)-Blöcken und Residualnetzen basiert. Die Integration des SE-Blocks ermöglicht es, sich selektiv auf wichtige Merkmale des menschlichen Gesichts zu konzentrieren, verbessert die Merkmalsrepräsentation und unterdrückt weniger relevante Merkmale. Dies trägt dazu bei, den Verlust zu reduzieren und die gesamte Modellleistung zu steigern. Zudem integrieren wir den SE-Block mit drei Residualblöcken, die helfen, durch tiefere Schichten eine komplexere Datenrepräsentation zu lernen. Wir haben ResEmoteNet anhand von vier Open-Source-Datenbanken evaluiert: FER2013, RAF-DB, AffectNet-7 und ExpW, wobei wir Genauigkeiten von 79,79 %, 94,76 %, 72,39 % und 75,67 % erreicht haben. Das vorgeschlagene Netzwerk übertrifft alle vier Datenbanken hinsichtlich der Leistung vergleichbarer state-of-the-art Modelle. Der Quellcode für ResEmoteNet ist unter https://github.com/ArnabKumarRoy02/ResEmoteNet verfügbar.