HyperAIHyperAI
il y a 2 mois

Au-delà des lettres muettes : Amplification de la reconnaissance émotionnelle par les LLMs grâce aux nuances vocales

Zehui Wu; Ziwei Gong; Lin Ai; Pengyuan Shi; Kaan Donbekci; Julia Hirschberg
Au-delà des lettres muettes : Amplification de la reconnaissance émotionnelle par les LLMs grâce aux nuances vocales
Résumé

La reconnaissance des émotions dans la parole est une tâche multimodale complexe qui nécessite de comprendre à la fois le contenu verbal et les nuances vocales. Cet article présente une nouvelle approche de détection des émotions en utilisant des grands modèles linguistiques (LLMs), qui ont démontré des capacités exceptionnelles en compréhension du langage naturel. Pour surmonter la limitation inhérente des LLMs dans le traitement des entrées audio, nous proposons SpeechCueLLM, une méthode qui traduit les caractéristiques de la parole en descriptions en langage naturel, permettant aux LLMs d'effectuer une analyse multimodale des émotions via des prompts textuels sans aucune modification architecturale. Notre méthode est minimaliste mais efficace, surpassant les modèles de base qui nécessitent des modifications structurelles. Nous évaluons SpeechCueLLM sur deux jeux de données : IEMOCAP et MELD, montrant des améliorations significatives en termes de précision de la reconnaissance des émotions, particulièrement pour les données audio de haute qualité. Nous explorons également l'efficacité de diverses représentations de caractéristiques et stratégies d'affinage pour différents LLMs. Nos expériences démontrent que l'intégration de descriptions vocales entraîne une augmentation supérieure à 2 % du score F1 pondéré moyen sur IEMOCAP (de 70,111 % à 72,596 %).

Au-delà des lettres muettes : Amplification de la reconnaissance émotionnelle par les LLMs grâce aux nuances vocales | Articles de recherche récents | HyperAI