LaERC-S: Verbesserung der emotionsbasierten Erkennung in Konversationen durch Sprechmerkmale

Die Erkennung von Emotionen im Gespräch (ERC, Emotion Recognition in Conversation), die Aufgabe, menschliche Emotionen für jede Äußerung innerhalb eines Gesprächs zu erkennen, hat in Mensch-Computer-Interaktionssystemen erhebliches Interesse gefunden. Frühere ERC-Studien konzentrierten sich auf sprecherbezogene Informationen, die hauptsächlich aus den Beziehungen zwischen Äußerungen stammen, was jedoch nicht ausreichend Informationen über das Gespräch liefert. Aktuelle Forschungen im Bereich ERC haben versucht, vortrainierte große Sprachmodelle (LLMs, Large Language Models) mit Sprechermodellierung zu nutzen, um emotionale Zustände zu verstehen. Obwohl diese Methoden ermutigende Ergebnisse erzielt haben, haben die extrahierten sprecherbezogenen Informationen Schwierigkeiten, emotionale Dynamiken anzudeuten. In dieser Arbeit, motiviert durch die Tatsache, dass sprechercharakteristische Merkmale eine entscheidende Rolle spielen und LLMs umfangreiches Weltwissen besitzen, stellen wir LaERC-S vor, einen neuen Ansatz, der LLMs dazu anregt, sprechercharakteristische Merkmale einschließlich des mentalen Zustands und des Verhaltens der Gesprächsteilnehmer zu erforschen, um genaue Emotionsvorhersagen zu treffen. Um den LLMs dieses Wissensinformationen zu vermitteln, verwenden wir ein zweistufiges Lernverfahren, das es den Modellen ermöglicht, sprechercharakteristische Merkmale abzuleiten und die Emotion des Sprechers in komplexen Gesprächsszenarien zu verfolgen. Ausführliche Experimente auf drei Benchmark-Datensätzen zeigen die Überlegenheit von LaERC-S und demonstrieren den neuen Stand der Technik (state-of-the-art).