HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance des émotions dans la parole persane à l’aide de réseaux neuronaux profonds

Ali Yazdani Hossein Simchi Yasser Shekofteh

Résumé

La reconnaissance émotionnelle par la parole (Speech Emotion Recognition, SER) revêt une importance capitale dans l’interaction homme-machine (Human-Computer Interaction, HCI), car elle permet une compréhension plus approfondie du contexte et favorise des interactions plus efficaces. Ces dernières années, divers algorithmes d’apprentissage automatique et de deep learning (DL) ont été développés afin d’améliorer les techniques de SER. La reconnaissance des émotions exprimées oralement dépend du type d’expression, qui varie selon les langues. Dans ce travail, afin d’approfondir l’étude des facteurs clés dans la langue persane (farsi), nous examinons différentes méthodes de deep learning sur un ensemble de données persan, le Sharif Emotional Speech Database (ShEMO), publié en 2018. En exploitant des caractéristiques issues de descriptions à bas et à haut niveau du signal, ainsi que divers réseaux neuronaux profonds et techniques d’apprentissage automatique, nous obtenons un taux d’accuracy non pondérée (Unweighted Accuracy, UA) de 65,20 % et un taux d’accuracy pondérée (Weighted Accuracy, WA) de 78,29 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance des émotions dans la parole persane à l’aide de réseaux neuronaux profonds | Articles | HyperAI