HyperAIHyperAI
vor 4 Monaten

Die erneute Betrachtung der multimodalen Emotionserkennung im Gespräch aus der Perspektive des Graphenspektrums

Tao Meng; Fuchen Zhang; Yuntao Shou; Wei Ai; Nan Yin; Keqin Li
Die erneute Betrachtung der multimodalen Emotionserkennung im Gespräch aus der Perspektive des Graphenspektrums
Abstract

Die effiziente Erfassung konsistenter und komplementärer semantischer Merkmale in einem multimodalen Konversationskontext ist entscheidend für die Multimodale Emotionserkennung in Konversationen (MERC). Bestehende Methoden verwenden hauptsächlich Graphstrukturen, um semantische Abhängigkeiten im Dialogkontext zu modellieren, und setzen Graph-Neuronale Netze (GNN) ein, um multimodale semantische Merkmale für die Emotionserkennung zu erfassen. Diese Methoden sind jedoch durch einige inhärente Eigenschaften von GNN begrenzt, wie zum Beispiel Überglättung und Tiefpassfilterung, was dazu führt, dass sie langdistanzige Konsistenzzusammenhänge und Komplementärinformation nicht effizient lernen können. Da Konsistenzzusammenhänge und Komplementärinformation jeweils den Niedrigfrequenz- und Hochfrequenzinformationen entsprechen, untersucht dieser Artikel das Problem der multimodalen Emotionserkennung in Konversationen aus der Perspektive des Graphenspektrums. Insbesondere schlagen wir einen auf dem Graphenspektrum basierenden Rahmen zur multimodal-kollaborativen Lernung von Konsistenz und Komplementarität vor: GS-MCC (Graph-Spectrum-based Multimodal Consistency and Complementary collaborative learning). Zunächst verwendet GS-MCC ein Schiebefenster, um einen multimodalen Interaktionsgraphen zu konstruieren, der konversationelle Beziehungen modelliert, und setzt effiziente Fourier-Graphoperatoren ein, um langdistanzige Hochfrequenz- und Niedrigfrequenzinformationen jeweils zu extrahieren. Anschließend nutzt GS-MCC kontrastives Lernen, um selbstüberwachte Signale zu generieren, die die kollaborative Widerspiegelung komplementärer und konsistenter semantischer Zusammenhänge mit Hoch- und Niedrigfrequenzsignalen darstellen. Dies verbessert die Fähigkeit von Hoch- und Niedrigfrequenzinformationen, echte Emotionen widerzuspiegeln. Schließlich werden die kollaborativen Hoch- und Niedrigfrequenzinformationen von GS-MCC in ein MLP-Netzwerk (Multilayer Perceptron) eingegeben und durch eine Softmax-Funktion zur Emotionsvorhersage verarbeitet. Umfangreiche Experimente haben die Überlegenheit des in diesem Artikel vorgeschlagenen GS-MCC-Architekturen auf zwei Benchmark-Datensätzen bewiesen.