Zusammenfassung vor Aggregation: Ein globales-zu-lokales heterogenes Graphinferenznetzwerk für die emotionale Erkennung in Gesprächen

Die Gesprächsbezogene Emotionserkennung (Conversational Emotion Recognition, CER) ist eine zentrale Aufgabe im Bereich des Natural Language Processing (NLP) mit vielfältigen Anwendungen. Bisherige Ansätze in der CER konzentrieren sich im Allgemeinen ausschließlich auf die Modellierung emotionaler Einflüsse mittels sprachlich-utteranzlevel-merkmale, wobei wenig Aufmerksamkeit auf die phrasenlevel-semantischen Verbindungen zwischen aufeinanderfolgenden Äußerungen gerichtet wird. Phrasen tragen Emotionen, wenn sie auf emotionale Ereignisse unter bestimmten Themen bezogen werden, und schaffen dadurch eine globale semantische Verbindung zwischen den Äußerungen über den gesamten Gesprächsverlauf hinweg. In dieser Arbeit stellen wir ein zweistufiges Summarization and Aggregation Graph Inference Network (SumAggGIN) vor, das die Inferenz themenrelevanter emotionaler Phrasen und die lokale Abhängigkeitsreasoning zwischen benachbarten Äußerungen auf eine global-to-local-Weise nahtlos integriert. Thematisch relevante emotionale Phrasen, die die globalen, themenbasierten emotionalen Verbindungen repräsentieren, werden durch unseren vorgeschlagenen heterogenen Summarization-Graph erkannt. Lokale Abhängigkeiten, welche kurzfristige emotionale Effekte zwischen benachbarten Äußerungen erfassen, werden anschließend über einen Aggregation-Graph nachträglich eingeflossen, um feine Unterschiede zwischen Äußerungen, die emotionale Phrasen enthalten, präzise zu erfassen. Die beiden Schritte der Graph-Inferenz sind eng gekoppelt, um ein umfassendes Verständnis der emotionalen Schwankungen zu ermöglichen. Experimentelle Ergebnisse auf drei etablierten CER-Benchmark-Datensätzen bestätigen die Wirksamkeit unseres vorgeschlagenen Modells, das die state-of-the-art-Methoden übertrifft.