Command Palette
Search for a command to run...
GraphCFC: Ein auf gerichteten Graphen basierender Ansatz zur multimodalen Merkmalsergänzung für die emotionale Erkennung in multimodalen Gesprächen
GraphCFC: Ein auf gerichteten Graphen basierender Ansatz zur multimodalen Merkmalsergänzung für die emotionale Erkennung in multimodalen Gesprächen
Jiang Li Xiaoping Wang Guoqing Lv Zhigang Zeng
Zusammenfassung
Die Erkennung von Emotionen in Gesprächen (Emotion Recognition in Conversation, ERC) spielt eine bedeutende Rolle in Systemen der Mensch-Computer-Interaktion (Human-Computer Interaction, HCI), da sie empathische Dienstleistungen ermöglicht. Multimodale ERC kann die Nachteile einmodaler Ansätze überwinden. In jüngster Zeit werden Graph Neural Networks (GNNs) aufgrund ihrer herausragenden Leistung bei der Modellierung von Beziehungen in einer Vielzahl von Anwendungsgebieten zunehmend eingesetzt. In der multimodalen ERC sind GNNs in der Lage, sowohl kontextuelle Informationen über weite Distanzen als auch intermodale Interaktionsinformationen zu extrahieren. Leider führen bestehende Methoden wie MMGCN, die mehrere Modi direkt fusionieren, oft zu redundanter Information und verlieren dabei vielfältige, wichtige Informationen. In dieser Arbeit präsentieren wir ein gerichtetes Graph-basiertes Modul zur cross-modalen Merkmalsergänzung (GraphCFC), das kontextuelle und interaktive Informationen effizient modellieren kann. GraphCFC verringert das Problem der Heterogenitätslücke bei der multimodalen Fusion durch den Einsatz mehrerer Unterraum-Extraktoren und einer Paarweisen Cross-modalen Ergänzungsstrategie (PairCC). Wir extrahieren verschiedene Arten von Kanten aus dem aufgebauten Graphen zur Kodierung, wodurch GNNs bei der Nachrichtenweitergabe präziser entscheidende kontextuelle und interaktive Informationen erfassen können. Darüber hinaus entwerfen wir eine GNN-Architektur namens GAT-MLP, die einen neuen einheitlichen Netzwerkrahmen für multimodales Lernen bereitstellt. Die experimentellen Ergebnisse auf zwei Standard-Datensätzen zeigen, dass unser GraphCFC die derzeit besten Ansätze (SOTA) übertrifft.