Multivarié, multi-fréquence et multimodal : Repenser les réseaux de neurones graphiques pour la reconnaissance des émotions dans les conversations

Les relations complexes de haute arité à travers les dimensions modale et contextuelle constituent un défi majeur dans la tâche de reconnaissance des émotions dans les conversations (ERC). Toutefois, les travaux antérieurs ont tendance à encoder les relations multimodales et contextuelles de manière lâchement couplée, ce qui peut nuire à la modélisation des relations. Récemment, les réseaux de neurones graphes (GNN), qui présentent des avantages notables dans la capture des relations au sein des données, offrent une nouvelle solution pour l’ERC. Toutefois, les modèles d’ERC basés sur les GNN existants ne parviennent pas à surmonter certaines limites générales des GNN, notamment l’hypothèse d’une formulation par paires et l’effacement des signaux à haute fréquence, qui peuvent sembler anodins pour de nombreuses applications mais sont cruciaux pour la tâche d’ERC. Dans cet article, nous proposons un modèle basé sur les GNN qui explore les relations multivariées et capture l’importance variable des écarts émotionnels et des similitudes émotionnelles en valorisant les signaux multi-fréquence. Nous permettons aux GNN de mieux capturer les relations intrinsèques entre les énoncés et d’assurer une modélisation multimodale et contextuelle plus complète. Les résultats expérimentaux montrent que notre méthode dépasse les approches les plus avancées de l’état de l’art sur deux jeux de données populaires d’ERC multimodaux.