Gesichtsausdruckserkennung mithilfe eines Residual-Masking-Netzwerks
Die automatische Gesichtsausdruckserkennung (FER) hat aufgrund ihrer Anwendungen in der Mensch-Computer-Interaktion erhebliche Aufmerksamkeit erhalten. Unter den Ansätzen zur Verbesserung von FER-Aufgaben konzentriert sich diese Arbeit auf tiefe Architekturen mit Aufmerksamkeitsmechanismus. Wir stellen eine neuartige Maskierungsidee vor, die die Leistungsfähigkeit von CNNs bei der Gesichtsausdruckserkennung steigert. Dabei wird ein Segmentierungsnetzwerk eingesetzt, um die Merkmalskarten zu verfeinern, sodass das Netzwerk sich auf relevante Informationen konzentrieren und korrekte Entscheidungen treffen kann. In den Experimenten kombinieren wir das weit verbreitete Deep Residual Network mit einer Unet-ähnlichen Architektur, um ein Residual Masking Network zu entwickeln. Die vorgeschlagene Methode erreicht die derzeit beste (SOTA) Genauigkeit auf den bekannten Datensätzen FER2013 und dem privaten VEMO-Datensatz.