HyperAIHyperAI
il y a 15 jours

GA2MIF : Fusion d'information multi-sources à deux étapes basée sur les graphes et l'attention pour la détection émotionnelle dans les conversations

Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng
GA2MIF : Fusion d'information multi-sources à deux étapes basée sur les graphes et l'attention pour la détection émotionnelle dans les conversations
Résumé

La reconnaissance émotionnelle multimodale dans les conversations (ERC) joue un rôle déterminant dans le domaine de l’interaction homme-machine et de la robotique conversationnelle, car elle permet aux systèmes informatiques de fournir des services empathiques. La modélisation des données multimodales est un domaine de recherche émergent ces dernières années, inspiré de la capacité humaine à intégrer plusieurs sens. Bien que plusieurs approches basées sur les graphes prétendent capturer les informations interactives entre modalités, l’hétérogénéité des données multimodales limite l’efficacité de ces méthodes, empêchant l’obtention de solutions optimales. Dans ce travail, nous proposons une méthode de fusion multimodale nommée GA2MIF (Graph and Attention based Two-stage Multi-source Information Fusion), destinée à la détection d’émotions dans les conversations. Notre approche surmonte le problème lié à l’entrée de graphes hétérogènes dans le modèle tout en éliminant les connexions redondantes complexes lors de la construction du graphe. Le GA2MIF se concentre sur la modélisation contextuelle et la modélisation intermodale grâce respectivement aux réseaux MDGAT (Multi-head Directed Graph ATtention networks) et MPCAT (Multi-head Pairwise Cross-modal ATtention networks). Des expériences étendues sur deux jeux de données publiques (IEMOCAP et MELD) démontrent que le GA2MIF est capable de capturer efficacement les informations contextuelles à longue portée au sein d’une même modalité ainsi que les informations complémentaires entre modalités, tout en surpassant de manière significative les modèles les plus récents (State-of-the-Art, SOTA).

GA2MIF : Fusion d'information multi-sources à deux étapes basée sur les graphes et l'attention pour la détection émotionnelle dans les conversations | Articles de recherche récents | HyperAI