GraphCFC : Une approche fondée sur les graphes dirigés pour la complémentarité des caractéristiques multimodales dans la reconnaissance émotionnelle conversationnelle

La reconnaissance des émotions dans les conversations (ERC, Emotion Recognition in Conversation) joue un rôle crucial dans les systèmes d'interaction homme-machine (HCI), car elle permet de fournir des services empathiques. L'ERC multimodale permet de surmonter les limites des approches unimodales. Récemment, les réseaux de neurones graphiques (GNN, Graph Neural Networks) ont été largement adoptés dans divers domaines grâce à leurs performances supérieures dans la modélisation des relations. Dans le cadre de l'ERC multimodale, les GNN sont capables d'extraire à la fois des informations contextuelles à longue distance et des informations d'interaction inter-modales. Toutefois, comme les méthodes existantes, telles que MMGCN, fusionnent directement les différentes modalités, elles risquent de générer des informations redondantes et de perdre des informations diversifiées. Dans ce travail, nous proposons un module basé sur un graphe orienté, appelé Complémentarité des caractéristiques inter-modales par graphe (GraphCFC), capable de modéliser efficacement les informations contextuelles et interactives. GraphCFC atténue le problème de l'écart d'hétérogénéité dans la fusion multimodale en exploitant des extracteurs de sous-espaces multiples ainsi qu'une stratégie de complémentarité inter-modale par paires (PairCC). Nous extrayons divers types d'arêtes à partir du graphe construit afin d'encoder les informations, permettant ainsi aux GNN d'extraire plus précisément les informations contextuelles et interactives cruciales lors du passage de messages. En outre, nous avons conçu une architecture GNN appelée GAT-MLP, offrant un nouveau cadre réseau unifié pour l'apprentissage multimodal. Les résultats expérimentaux sur deux jeux de données standard montrent que notre méthode GraphCFC surpassent les approches de l'état de l'art (SOTA).