HyperAIHyperAI
il y a 19 jours

Compréhension de conversation par réseaux neuronaux graphiques temporels relationnels avec interaction croisée auxiliaire multimodale

Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le
Compréhension de conversation par réseaux neuronaux graphiques temporels relationnels avec interaction croisée auxiliaire multimodale
Résumé

La reconnaissance des émotions constitue une tâche essentielle pour la compréhension des conversations humaines. Elle devient particulièrement complexe lorsqu’elle prend en compte les données multimodales, telles que le langage, la voix et les expressions faciales. Une approche classique consiste à exploiter à la fois les informations contextuelles globales et locales afin de prédire l’étiquette émotionnelle de chaque phrase, ou utterance, dans un dialogue. Plus précisément, la représentation globale peut être capturée en modélisant les interactions entre modalités au niveau de la conversation. En revanche, la représentation locale est généralement extraite à partir de l’information temporelle des locuteurs ou des variations émotionnelles, ce qui néglige des facteurs critiques au niveau de l’utterance. De plus, la plupart des approches existantes fusionnent les caractéristiques issues de différentes modalités dans une entrée unique, sans exploiter pleinement les représentations spécifiques à chaque modalité. Motivés par ces limites, nous proposons un nouveau cadre neuronal, le Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction (CORECT), qui permet efficacement de capturer les interactions intermodales au niveau de la conversation ainsi que les dépendances temporelles au niveau de l’utterance, tout en conservant une approche spécifique à chaque modalité pour la compréhension des dialogues. Des expérimentations étendues démontrent l’efficacité de CORECT, qui atteint des résultats de pointe sur les jeux de données IEMOCAP et CMU-MOSEI pour la tâche de reconnaissance émotionnelle multimodale (ERC).

Compréhension de conversation par réseaux neuronaux graphiques temporels relationnels avec interaction croisée auxiliaire multimodale | Articles de recherche | HyperAI