vor 11 Tagen

MMGCN: Multimodale Fusion mittels Tiefer Graphen-Convolutional Network für die Emotionserkennung in Gesprächen

Jingwen Hu, Yuchen Liu, Jinming Zhao, Qin Jin

Abstract

Die Emotionserkennung in Gesprächen (ERC) ist eine entscheidende Komponente in affektiven Dialogsystemen, da sie dem System hilft, die Emotionen der Nutzer zu verstehen und empathische Antworten zu generieren. Allerdings konzentrieren sich die meisten bisherigen Arbeiten hauptsächlich auf die Modellierung von Sprecher- und Kontextinformationen im Textmodus oder nutzen multimodale Informationen lediglich durch Merkmalsverkettung. Um eine effektivere Nutzung sowohl multimodaler als auch langstreckiger kontextueller Informationen zu erforschen, stellen wir in dieser Arbeit ein neues Modell vor, das auf einem multimodalen gefassten Graphen-Convolutional-Netzwerk (MMGCN) basiert. MMGCN kann nicht nur multimodale Abhängigkeiten effektiv ausnutzen, sondern nutzt zudem Sprecherinformationen, um sowohl inter-sprecherliche als auch intra-sprecherliche Abhängigkeiten zu modellieren. Wir evaluieren unser vorgeschlagenes Modell anhand zweier öffentlicher Benchmark-Datensätze, IEMOCAP und MELD, und die Ergebnisse belegen die Wirksamkeit von MMGCN, das unter multimodalen Gesprächsbedingungen signifikant gegenüber anderen State-of-the-Art-Methoden abschneidet.