MMGCN : Fusion multimodale via un réseau de convolution de graphe profond pour la reconnaissance des émotions dans les conversations

La reconnaissance des émotions dans les conversations (ERC) constitue un élément fondamental des systèmes dialogiques affectifs, permettant au système de comprendre les émotions des utilisateurs et de générer des réponses empathiques. Toutefois, la plupart des travaux se concentrent principalement sur la modélisation de l’information du locuteur et du contexte à travers la modalité textuelle, ou exploitent de manière simpliste les informations multimodales par concaténation de caractéristiques. Afin d’explorer une approche plus efficace pour tirer parti à la fois des informations multimodales et du contexte à longue portée, nous proposons dans ce travail un nouveau modèle basé sur un réseau de convolution graphique à fusion multimodale, nommé MMGCN. Ce modèle permet non seulement d’exploiter efficacement les dépendances multimodales, mais aussi de tirer parti des informations relatives aux locuteurs pour modéliser à la fois les dépendances inter-locuteurs et intra-locuteurs. Nous évaluons notre modèle proposé sur deux jeux de données publiques de référence, IEMOCAP et MELD, et les résultats démontrent l’efficacité de MMGCN, qui surpasse significativement les méthodes de l’état de l’art dans un cadre de conversation multimodale.