Ausnutzung neuer Fortschritte in der tiefen Lernens für die audiovisuelle Emotionserkennung

Emotionale Ausdrücke sind Verhaltensweisen, die unseren emotionalen Zustand oder unsere Haltung gegenüber anderen kommunizieren. Sie werden sowohl durch verbale als auch durch nonverbale Kommunikation vermittelt. Komplexe menschliche Verhaltensweisen können durch die Analyse physischer Merkmale aus mehreren Modalitäten verstanden werden; vor allem Gesichtsausdrücke, Stimme und körperliche Gesten. In jüngster Zeit wurde die automatische Erkennung von Emotionen in natürlicher, multimodaler Form intensiv für die Analyse menschlichen Verhaltens erforscht. In diesem Artikel präsentieren wir einen neuen, auf tiefen Lernverfahren basierenden Ansatz zur audiovisuellen Emotionserkennung. Unser Ansatz nutzt jüngste Fortschritte im Bereich des tiefen Lernens, wie beispielsweise Knowledge Distillation und leistungsstarke tiefe Architekturen. Die tiefen Merkmalsdarstellungen der audio- und visuellen Modalitäten werden auf Basis einer Modellfusion integriert. Anschließend wird ein rekurrentes neuronales Netzwerk eingesetzt, um die zeitlichen Dynamiken zu erfassen. Unser vorgeschlagener Ansatz erreicht erheblich bessere Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Methoden bei der Vorhersage der Valenz auf dem RECOLA-Datensatz. Darüber hinaus übertrifft unser vorgeschlagener Netzwerkansatz zur Extraktion visueller Gesichtsausdrucksmerkmale die bisher besten Ergebnisse auf den Datensätzen AffectNet und Google Facial Expression Comparison.