Multivariat, mehrfrequenz- und multimodal: Die Neubewertung von Graph Neural Networks für die Emotionserkennung in Gesprächen

Komplexe Beziehungen hoher Arität über Modaldimensionen und Kontextdimensionen stellen eine zentrale Herausforderung bei der Emotionserkennung in Gesprächen (Emotion Recognition in Conversation, ERC) dar. Bisherige Ansätze neigen dazu, multimodale und kontextuelle Beziehungen lose gekoppelt zu kodieren, was die Modellierung von Beziehungen beeinträchtigen kann. Kürzlich bieten Graph Neural Networks (GNN), die Vorteile bei der Erfassung von Datenbeziehungen zeigen, eine neue Lösung für die ERC-Aufgabe. Allerdings berücksichtigen bestehende GNN-basierte ERC-Modelle einige allgemeine Einschränkungen von GNNs nicht, darunter die Annahme einer paarweisen Formulierung und die Unterdrückung hochfrequenter Signale – Aspekte, die für viele Anwendungen vernachlässigbar erscheinen mögen, jedoch für die ERC-Aufgabe von entscheidender Bedeutung sind. In diesem Paper stellen wir ein GNN-basiertes Modell vor, das multivariate Beziehungen untersucht und die unterschiedliche Bedeutung von Emotionsdifferenzen und -Übereinstimmungen durch die Berücksichtigung von Multi-Frequenzsignalen erfasst. Dadurch werden GNNs befähigt, die inhärenten Beziehungen zwischen Äußerungen präziser zu erfassen und eine umfassendere multimodale sowie kontextuelle Modellierung zu ermöglichen. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode gegenüber vorherigen State-of-the-Art-Ansätzen auf zwei etablierten multimodalen ERC-Datensätzen eine überlegene Leistung erzielt.