S+PAGE : un modèle de réseau de neurones graphiques sensible au locuteur et à la position pour la reconnaissance des émotions dans les conversations

La reconnaissance des émotions dans les conversations (ERC) a suscité un intérêt croissant ces dernières années en raison de son importance dans de nombreuses applications. Les méthodes existantes d’ERC modélisent principalement le contexte propre à l’interlocuteur et le contexte inter-personnel de manière séparée, ce qui pose un problème majeur lié à l’insuffisance d’interactions entre ces deux types de contexte. Dans cet article, nous proposons un nouveau modèle de réseau neuronal à graphes sensible au locuteur et à la position pour l’ERC (S+PAGE), composé de trois étapes, qui combine les avantages des Transformers et des réseaux de convolution de graphes relationnels (R-GCN) afin d’améliorer la modélisation du contexte. Premièrement, nous introduisons un Transformer conversationnel à deux flux pour extraire les caractéristiques contextuelles brutes propres à chaque locuteur et inter-personnelles pour chaque énoncé. Ensuite, un graphe conversationnel sensible au locuteur et à la position est construit, et nous proposons un modèle R-GCN amélioré, appelé PAG, pour affiner ces caractéristiques brutes grâce à un encodage positionnel relatif. Enfin, les caractéristiques issues des deux premières étapes sont combinées dans une couche de champ aléatoire conditionnel afin de modéliser le transfert d’émotions.