Réexaminer la Reconnaissance Multimodale des Émotions dans la Conversation sous l'Angle du Spectre de Graphe

Capturer efficacement des caractéristiques sémantiques cohérentes et complémentaires dans un contexte de conversation multimodale est crucial pour la Reconnaissance Multimodale des Émotions en Conversation (MERC). Les méthodes existantes utilisent principalement des structures de graphe pour modéliser les dépendances sémantiques du contexte de dialogue et emploient des Réseaux Neuronaux de Graphe (GNN) pour capturer des caractéristiques sémantiques multimodales destinées à la reconnaissance émotionnelle. Cependant, ces méthodes sont limitées par certaines caractéristiques inhérentes aux GNN, telles que le lissage excessif et le filtrage passe-bas, ce qui entraîne une incapacité à apprendre efficacement les informations de cohérence à longue distance et les informations complémentaires. Comme les informations de cohérence et de complémentarité correspondent respectivement aux informations à basse fréquence et à haute fréquence, cet article reconsidère le problème de la reconnaissance multimodale des émotions en conversation sous l'angle du spectre de graphe. Plus précisément, nous proposons un cadre d'apprentissage collaboratif basé sur le spectre de graphe pour la cohérence et la complémentarité multimodales, appelé GS-MCC. Tout d'abord, GS-MCC utilise une fenêtre glissante pour construire un graphe d'interaction multimodale afin de modéliser les relations conversationnelles et utilise des opérateurs graphiques de Fourier efficaces pour extraire respectivement les informations à haute fréquence et à basse fréquence sur de longues distances. Ensuite, GS-MCC utilise l'apprentissage par contraste pour construire des signaux auto-supervisés qui reflètent la collaboration sémantique cohérente et complémentaire avec des signaux à haute et basse fréquence, améliorant ainsi la capacité des informations à haute et basse fréquence à refléter les émotions réelles. Enfin, GS-MCC introduit les informations collaboratives à haute et basse fréquence dans un réseau MLP (Multilayer Perceptron) et une fonction softmax pour prédire les émotions. De nombreuses expériences ont démontré la supériorité de l'architecture GS-MCC proposée dans cet article sur deux ensembles de données de référence.