Interprétation empirique de la perception des émotions vocales à l’aide d’un modèle basé sur l’attention pour la reconnaissance des émotions vocales

La reconnaissance émotionnelle dans la parole est essentielle pour acquérir une intelligence émotionnelle, qui influence la compréhension du contexte et du sens du discours. Les sons voyelles et consonnes, structurés de manière harmonique, apportent des indices indexicaux et linguistiques dans l’information orale. Des recherches antérieures ont débattu de l’importance relative des indices sonores des voyelles dans le transport du contexte émotionnel, du point de vue psychologique et linguistique. D’autres études ont également soutenu que l’information émotionnelle pouvait résider dans de petits indices acoustiques chevauchants. Toutefois, ces hypothèses ne sont pas pleinement confirmées dans les systèmes computationnels de reconnaissance émotionnelle de la parole. Dans cette recherche, un modèle basé sur la convolution et un modèle basé sur le mémoire à long et court terme (LSTM), tous deux intégrant une mécanique d’attention, sont appliqués pour explorer ces théories au sein de modèles computationnels. Le rôle du contexte acoustique et de l’importance des mots est mis en évidence pour la tâche de reconnaissance émotionnelle de la parole. Le corpus IEMOCAP est évalué par les modèles proposés, atteignant une précision non pondérée de 80,1 % sur des données acoustiques pures, ce qui dépasse les meilleurs modèles actuels sur cette tâche. Les phones et les mots sont cartographiés sur les vecteurs d’attention, révélant que les sons voyelles sont plus importants que les consonnes pour définir les indices acoustiques émotionnels, et que le modèle est capable d’attribuer une importance aux mots en fonction du contexte acoustique.