HyperAIHyperAI
il y a 11 jours

CFN-ESA : Un réseau de fusion multimodale avec prise en compte du décalage émotionnel pour la reconnaissance des émotions dans les dialogues

Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng
CFN-ESA : Un réseau de fusion multimodale avec prise en compte du décalage émotionnel pour la reconnaissance des émotions dans les dialogues
Résumé

La reconnaissance émotionnelle multimodale dans les conversations (ERC) suscite un intérêt croissant au sein des communautés de recherche dans divers domaines. Dans cet article, nous proposons un réseau de fusion multimodale avec prise en compte des changements émotionnels (CFN-ESA) pour l’ERC. Les approches existantes traitent chaque modalité de manière équivalente, sans distinguer la quantité d’information émotionnelle présente dans chacune, ce qui rend difficile l’extraction adéquate d’informations complémentaires à partir des données multimodales. Pour surmonter ce problème, dans CFN-ESA, nous considérons la modalité textuelle comme la source principale d’information émotionnelle, tandis que les modalités visuelle et acoustique sont traitées comme sources secondaires. En outre, la plupart des modèles d’ERC multimodaux ignorent les informations relatives aux changements émotionnels et se concentrent excessivement sur les informations contextuelles, ce qui conduit à un échec de la reconnaissance émotionnelle dans des scénarios de changement émotionnel. Nous proposons donc un module dédié aux changements émotionnels pour relever ce défi. CFN-ESA se compose principalement de trois composants : un encodeur unimodal (RUME), un encodeur multimodal (ACME) et un module de changement émotionnel (LESM). RUME est utilisé pour extraire les indices émotionnels contextuels au niveau de la conversation tout en uniformisant les distributions des données entre les modalités ; ACME permet d’effectuer une interaction multimodale centrée sur la modalité textuelle ; quant à LESM, il modélise les changements émotionnels et capte les informations associées, guidant ainsi l’apprentissage de la tâche principale. Les résultats expérimentaux montrent que CFN-ESA améliore efficacement les performances en ERC et surpasse significativement les modèles de pointe actuels.

CFN-ESA : Un réseau de fusion multimodale avec prise en compte du décalage émotionnel pour la reconnaissance des émotions dans les dialogues | Articles de recherche récents | HyperAI