Multimodale Emotionserkennung auf dem RAVDESS-Datensatz unter Verwendung von Transfer Learning
Die Emotionserkennung erregt aufgrund ihrer vielfältigen Anwendungsmöglichkeiten – beispielsweise im Gesundheitswesen oder in Verkehrsicherheitssystemen – zunehmend das Interesse der Forschungsgemeinschaft. In diesem Beitrag präsentieren wir ein multimodales System zur Emotionserkennung, das auf Sprach- und Gesichtsinformationen basiert. Für die sprachbasierte Modality haben wir verschiedene Transfer-Learning-Techniken evaluiert, insbesondere die Extraktion von Embeddings und das Fine-Tuning. Die besten Genauigkeitswerte wurden erzielt, indem wir das CNN-14 des PANNs-Rahmenwerks fine-tunten, was bestätigt, dass die Trainingsrobustheit höher ist, wenn nicht von Grund auf begonnen wird und die Aufgaben zueinander ähnlich sind. Bei der Erkennung von Gesichtsemotionen schlagen wir einen Rahmen vor, der aus einem vortrainierten Spatial Transformer Network auf Aufmerksamkeitskarten und Gesichtsbildern besteht, gefolgt von einem bi-LSTM mit Aufmerksamkeitsmechanismus. Die Fehleranalyse zeigt, dass framebasierte Systeme trotz Domain-Adaptation Schwierigkeiten aufweisen können, wenn sie direkt zur Lösung videobasierter Aufgaben eingesetzt werden. Dies eröffnet eine neue Forschungslinie, um neue Ansätze zur Korrektur dieser Diskrepanz zu finden und das in vortrainierten Modellen enthaltene Wissen effektiver zu nutzen. Schließlich erreichten wir bei der Kombination beider Modalitäten mittels einer späten Fusion eine Genauigkeit von 80,08 % auf dem RAVDESS-Datensatz bei einer subject-wise 5-CV-Evaluation zur Klassifizierung von acht Emotionen. Die Ergebnisse belegen, dass beide Modalitäten relevante Informationen zur Detektion des emotionalen Zustands der Benutzer liefern und ihre Kombination die Systemleistung signifikant verbessert.