MM-DFN : Réseau de fusion dynamique multimodal pour la reconnaissance des émotions dans les conversations

La reconnaissance des émotions dans les conversations (ERC) présente des perspectives prometteuses pour le développement de machines empathiques. Dans le cadre de l’ERC multimodale, il est essentiel de comprendre le contexte et de fusionner efficacement les informations provenant de différentes modalités au sein des conversations. Les méthodes récentes basées sur les graphes pour la fusion d’informations exploitent généralement les interactions unimodales et cross-modales au sein d’un graphe afin d’agréger les informations multimodales. Toutefois, ces approches accumulent des informations redondantes à chaque couche, ce qui limite la compréhension contextuelle entre les modalités. Dans ce travail, nous proposons un nouveau réseau de fusion dynamique multimodale (MM-DFN) pour reconnaître les émotions en comprenant pleinement le contexte conversationnel multimodal. Plus précisément, nous avons conçu un nouveau module de fusion dynamique basé sur les graphes, permettant de fusionner les caractéristiques contextuelles multimodales au sein d’une conversation. Ce module réduit la redondance et renforce la complémentarité entre les modalités en capturant la dynamique des informations contextuelles dans différents espaces sémantiques. Des expériences étendues sur deux jeux de données publics de référence démontrent l’efficacité et l’avantage du MM-DFN.