HyperAIHyperAI
vor 11 Tagen

Ein Vorschlag zur multimodalen Emotionserkennung mittels auraler Transformer und Action Units auf dem RAVDESS-Datensatz

{Fernando Fernández-Martínez, Juan M. Montero, Zoraida Callejas, David Griol, Ricardo Kleinlein, Cristina Luna-Jiménez}
Abstract

Die Erkennung von Emotionen zieht aufgrund ihrer vielfältigen Anwendungen in verschiedenen Bereichen – beispielsweise in der Medizin oder im autonomen Fahren – zunehmend die Aufmerksamkeit der Forschungsgemeinschaft an. In diesem Artikel stellen wir ein automatisches Emotionserkennungssystem vor, das aus einem Sprachemotionsrekognoszierer (SER) und einem Gesichtsemotionsrekognoszierer (FER) besteht. Für den SER haben wir einen vortrainierten XLSR-Wav2Vec2.0-Transformer mit zwei Transfer-Learning-Techniken evaluiert: Embedding-Extraktion und Fine-Tuning. Die besten Genauigkeitswerte wurden erzielt, indem wir das gesamte Modell fine-tunten und darauf ein mehrschichtiges Perzeptron anfügten, was bestätigt, dass die Trainingsrobustheit höher ist, wenn nicht von Grund auf begonnen wird und das vorherige Wissen des Netzwerks der zu adaptierenden Aufgabe ähnelt. Bei der Gesichtsemotionserkennung extrahierten wir die Action Units aus den Videos und verglichen die Leistungsfähigkeit statischer Modelle mit sequenziellen Modellen. Die Ergebnisse zeigten, dass sequenzielle Modelle statische Modelle nur knapp übertrafen. Eine Fehleranalyse ergab, dass die visuellen Systeme durch einen Detektor für hochemotional belastete Frames verbessert werden könnten, was eine neue Forschungsrichtung eröffnet, um neue Ansätze zur Lernprozesse aus Videos zu entwickeln. Schließlich erreichten wir bei der Kombination beider Modalitäten mittels einer späten Fusion eine Genauigkeit von 86,70 % auf dem RAVDESS-Datensatz bei einer subject-wise 5-CV-Evaluation zur Klassifikation von acht Emotionen. Die Ergebnisse belegen, dass beide Modalitäten relevante Informationen zur Detektion des emotionalen Zustands der Benutzer liefern und ihre Kombination die Gesamtleistung des Systems verbessert.

Ein Vorschlag zur multimodalen Emotionserkennung mittels auraler Transformer und Action Units auf dem RAVDESS-Datensatz | Neueste Forschungsarbeiten | HyperAI