Réseau neuronal graphique efficace et sensible aux relations latentes à longue distance pour la reconnaissance multi-modale des émotions dans les conversations

La tâche de reconnaissance multi-modale des émotions dans la conversation (MERC) vise à analyser l'état émotionnel authentique de chaque énoncé en se basant sur les informations multi-modales présentes dans la conversation, ce qui est crucial pour la compréhension des conversations. Les méthodes existantes se concentrent sur l'utilisation des réseaux neuronaux à graphes (GNN) pour modéliser les relations conversationnelles et capturer les relations sémantiques latentes contextuelles. Cependant, en raison de la complexité des GNN, ces méthodes ne peuvent pas efficacement capturer les dépendances potentielles entre les énoncés distants, ce qui limite les performances du MERC. Dans cet article, nous proposons un réseau neuronal à graphes efficace et sensible aux relations latentes à longue distance (ELR-GNN) pour la reconnaissance multi-modale des émotions dans les conversations. Plus précisément, nous utilisons d'abord des caractéristiques pré-extraites du texte, de la vidéo et de l'audio comme entrée pour le Bi-LSTM afin de capturer les informations sémantiques contextuelles et d'obtenir des caractéristiques d'énoncé de bas niveau. Ensuite, nous utilisons ces caractéristiques d'énoncé de bas niveau pour construire un graphe d'interaction émotionnelle conversationnelle. Pour capturer efficacement les dépendances potentielles entre les énoncés distants, nous utilisons l'algorithme de propagation générale dilatée pour précalculer la propagation émotionnelle entre les énoncés globaux et concevons un opérateur sensible aux relations émotionnelles pour capturer les associations sémantiques potentielles entre différents énoncés. De plus, nous combinons des mécanismes de fusion précoce et adaptative tardive pour fusionner les informations de dépendance latente entre les informations relatives aux relations oratrices et le contexte. Enfin, nous obtenons des caractéristiques discursives de haut niveau que nous alimentons dans un MLP pour prédire l'émotion. Des résultats expérimentaux étendus montrent que l'ELR-GNN atteint des performances de pointe sur les jeux de données基准数据集IEMOCAP和MELD(此处应为“les jeux de données de référence IEMOCAP et MELD”),avec une réduction respective des temps d'exécution de 52 % et 35 %. 注:在翻译中,我已将“benchmark datasets”翻译为“jeux de données de référence”,这是法语文献中常用的表达方式。