HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Interprétation empirique de la perception des émotions vocales à l’aide d’un modèle basé sur l’attention pour la reconnaissance des émotions vocales

{Thomas Hain Speech Rosanna Milner Md AsifJalal}

Interprétation empirique de la perception des émotions vocales à l’aide d’un modèle basé sur l’attention pour la reconnaissance des émotions vocales

Résumé

La reconnaissance émotionnelle dans la parole est essentielle pour acquérir une intelligence émotionnelle, qui influence la compréhension du contexte et du sens du discours. Les sons voyelles et consonnes, structurés de manière harmonique, apportent des indices indexicaux et linguistiques dans l’information orale. Des recherches antérieures ont débattu de l’importance relative des indices sonores des voyelles dans le transport du contexte émotionnel, du point de vue psychologique et linguistique. D’autres études ont également soutenu que l’information émotionnelle pouvait résider dans de petits indices acoustiques chevauchants. Toutefois, ces hypothèses ne sont pas pleinement confirmées dans les systèmes computationnels de reconnaissance émotionnelle de la parole. Dans cette recherche, un modèle basé sur la convolution et un modèle basé sur le mémoire à long et court terme (LSTM), tous deux intégrant une mécanique d’attention, sont appliqués pour explorer ces théories au sein de modèles computationnels. Le rôle du contexte acoustique et de l’importance des mots est mis en évidence pour la tâche de reconnaissance émotionnelle de la parole. Le corpus IEMOCAP est évalué par les modèles proposés, atteignant une précision non pondérée de 80,1 % sur des données acoustiques pures, ce qui dépasse les meilleurs modèles actuels sur cette tâche. Les phones et les mots sont cartographiés sur les vecteurs d’attention, révélant que les sons voyelles sont plus importants que les consonnes pour définir les indices acoustiques émotionnels, et que le modèle est capable d’attribuer une importance aux mots en fonction du contexte acoustique.

Benchmarks

BenchmarkMéthodologieMétriques
speech-emotion-recognition-on-iemocapSYSCOMB: BLSTMATT with CSA (session5)
F1: -
UA: 0.740
WA: 0.805

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Interprétation empirique de la perception des émotions vocales à l’aide d’un modèle basé sur l’attention pour la reconnaissance des émotions vocales | Articles de recherche | HyperAI