Command Palette
Search for a command to run...
Reconnaissance des émotions dans la parole persane à l’aide de réseaux neuronaux profonds
Reconnaissance des émotions dans la parole persane à l’aide de réseaux neuronaux profonds
Ali Yazdani Hossein Simchi Yasser Shekofteh
Résumé
La reconnaissance émotionnelle par la parole (Speech Emotion Recognition, SER) revêt une importance capitale dans l’interaction homme-machine (Human-Computer Interaction, HCI), car elle permet une compréhension plus approfondie du contexte et favorise des interactions plus efficaces. Ces dernières années, divers algorithmes d’apprentissage automatique et de deep learning (DL) ont été développés afin d’améliorer les techniques de SER. La reconnaissance des émotions exprimées oralement dépend du type d’expression, qui varie selon les langues. Dans ce travail, afin d’approfondir l’étude des facteurs clés dans la langue persane (farsi), nous examinons différentes méthodes de deep learning sur un ensemble de données persan, le Sharif Emotional Speech Database (ShEMO), publié en 2018. En exploitant des caractéristiques issues de descriptions à bas et à haut niveau du signal, ainsi que divers réseaux neuronaux profonds et techniques d’apprentissage automatique, nous obtenons un taux d’accuracy non pondérée (Unweighted Accuracy, UA) de 65,20 % et un taux d’accuracy pondérée (Weighted Accuracy, WA) de 78,29 %.