EmoCaps: Emotion Capsule-basiertes Modell für die emotionale Erkennung in Gesprächen

Die Erkennung von Emotionen in Gesprächen (ERC) zielt darauf ab, den emotionalen Zustand des Sprechers zu analysieren und dessen Emotion im Gespräch zu identifizieren. Aktuelle Ansätze in der ERC konzentrieren sich auf die Modellierung von Kontextinformationen, ignorieren jedoch die Repräsentation der emotionalen Tendenz im Kontext. Um mehrmodale Informationen sowie die emotionale Tendenz einer Äußerung effektiv zu extrahieren, schlagen wir eine neue Architektur namens Emoformer vor, die mehrmodale Emotionsvektoren aus verschiedenen Modalitäten extrahiert und diese mit einem Satzvektor zu einem Emotions-Kapsel verschmilzt. Darüber hinaus entwickeln wir ein end-to-end-ERC-Modell namens EmoCaps, das Emotionsvektoren über die Emoformer-Architektur extrahiert und die Emotionsklassifikationsergebnisse aus einem Kontextanalysemodell erhält. Experimente mit zwei etablierten Benchmark-Datensätzen zeigen, dass unser Modell eine bessere Leistung als bestehende state-of-the-art-Modelle erzielt.