EmoCaps : Modèle basé sur des capsules émotionnelles pour la reconnaissance émotionnelle dans les conversations

La reconnaissance des émotions dans les conversations (ERC) vise à analyser l’état de l’interlocuteur et à identifier son émotion au cours d’une interaction. Les travaux récents en ERC se concentrent principalement sur la modélisation du contexte, tout en ignorant la représentation de la tendance émotionnelle contextuelle. Afin d’extraire efficacement les informations multimodales ainsi que la tendance émotionnelle d’un énoncé, nous proposons une nouvelle architecture appelée Emoformer, conçue pour extraire des vecteurs émotionnels multimodaux à partir de différentes modalités, puis les fusionner avec un vecteur de phrase afin de former une capsule émotionnelle. Par ailleurs, nous avons conçu un modèle d’ERC end-to-end nommé EmoCaps, qui exploite la structure Emoformer pour extraire les vecteurs émotionnels et obtient les résultats de classification émotionnelle via un modèle d’analyse contextuelle. Les expériences menées sur deux jeux de données standard montrent que notre modèle surpasser les modèles actuels de l’état de l’art.