HyperAIHyperAI
vor 11 Tagen

Emotionserkennung in persischer Sprache mithilfe von Deep Neural Networks

Ali Yazdani, Hossein Simchi, Yasser Shekofteh
Emotionserkennung in persischer Sprache mithilfe von Deep Neural Networks
Abstract

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist von großer Bedeutung für die Mensch-Computer-Interaktion (Human-Computer Interaction, HCI), da sie ein tieferes Verständnis der situativen Gegebenheiten ermöglicht und zu einer verbesserten Interaktion führt. In den letzten Jahren wurden verschiedene maschinelle Lern- und Deep-Learning-(DL)-Algorithmen entwickelt, um SER-Techniken zu verbessern. Die Erkennung gesprochener Emotionen hängt von der Art der Ausdrucksweise ab, die zwischen verschiedenen Sprachen variiert. In diesem Artikel untersuchen wir anhand einer persischen (Farsi-)Datensammlung, dem Sharif Emotional Speech Database (ShEMO), das 2018 veröffentlicht wurde, verschiedene DL-Techniken, um wichtige Faktoren der persischen Sprache weiter zu erforschen. Unter Verwendung von Signalmerkmalen auf niedriger und hoher Ebene sowie verschiedener tiefer neuronalen Netze und maschineller Lernverfahren werden eine ungewichtete Genauigkeit (Unweighted Accuracy, UA) von 65,20 % und eine gewichtete Genauigkeit (Weighted Accuracy, WA) von 78,29 % erreicht.

Emotionserkennung in persischer Sprache mithilfe von Deep Neural Networks | Neueste Forschungsarbeiten | HyperAI