HyperAIHyperAI
il y a 18 jours

Reconnaissance des émotions vocales basée sur la correction des poids d'attention auto-associative pour les caractéristiques acoustiques et textuelles

{Shoji Makino, Taiichi Hashimoto, Kenkichi Ishizuka, Takeshi Yamada, JENNIFER SANTOSO}
Résumé

La reconnaissance émotionnelle dans la parole (SER, Speech Emotion Recognition) est essentielle pour comprendre l’intention d’un locuteur. Récemment, plusieurs équipes ont tenté d’améliorer les performances de la SER en utilisant un réseau de mémoire à long et court terme bidirectionnel (BLSTM) pour extraire des caractéristiques des séquences vocales, combiné à un mécanisme d’attention auto-associative afin de se concentrer sur les parties les plus pertinentes des séquences. La SER bénéficie également de l’intégration des informations contenues dans la parole et dans le texte, ce qui peut être réalisé automatiquement à l’aide d’un système de reconnaissance automatique de la parole (ASR), conduisant à une amélioration supplémentaire des performances. Toutefois, la performance de l’ASR se dégrade en présence d’émotions dans la parole. Bien qu’une méthode existe pour améliorer la performance de l’ASR en présence de parole émotionnelle, elle nécessite un ajustement fin (fine-tuning) de l’ASR, ce qui implique un coût computationnel élevé et entraîne une perte de signaux cruciaux pour détecter la présence d’émotions dans les segments vocaux, signaux utiles pour la SER. Pour résoudre ces problèmes, nous proposons une méthode de SER basée sur le BLSTM et l’attention auto-associative, intégrant une correction des poids d’attention (SAWC, Self-Attention Weight Correction) fondée sur des mesures de confiance. Cette méthode est appliquée aux extracteurs de caractéristiques acoustiques et textuelles dans la SER afin d’ajuster les poids d’importance des segments vocaux et des mots présentant une forte probabilité d’erreur de reconnaissance. Notre approche SAWC réduit l’importance des mots erronés dans les caractéristiques textuelles tout en renforçant l’importance des segments vocaux contenant ces mots dans les caractéristiques acoustiques. Les résultats expérimentaux sur le jeu de données Interactive Emotional Dyadic Motion Capture (IEMOCAP) montrent que notre méthode atteint une précision moyenne pondérée de 76,6 %, surpassant ainsi d’autres méthodes de pointe. En outre, nous avons analysé le comportement de notre méthode SAWC dans chaque extracteur de caractéristiques.