Command Palette
Search for a command to run...
Hierarchisches Transformer-Netzwerk für die Äußerungsebene Emotionserkennung
Hierarchisches Transformer-Netzwerk für die Äußerungsebene Emotionserkennung
QingBiao Li ChunHua Wu KangFeng Zheng Zhe Wang
Zusammenfassung
Obwohl es erhebliche Fortschritte bei der Erkennung von Emotionen in Text gibt, bleiben in der Forschung zu emotionaler Erkennung auf Satzebene (utterance-level emotion recognition, ULER) noch zahlreiche Herausforderungen ungelöst. In diesem Artikel behandeln wir einige zentrale Probleme im Bereich ULER innerhalb von Dialogsystemen: (1) Derselbe Äußerung kann je nach Kontext oder Sprecher unterschiedliche Emotionen vermitteln. (2) Die Erfassung von langreichweitigen kontextuellen Informationen ist bisher schwer umsetzbar. (3) Im Gegensatz zu klassischen Text-Klassifikationsaufgaben steht dieser Aufgabe ein begrenzter Datensatzumfang zur Verfügung, wobei die meisten verfügbaren Datensätze unzureichende Dialog- oder Sprachdaten enthalten. Um diese Probleme zu bewältigen, schlagen wir einen hierarchischen Transformer-Framework vor (wobei im Folgenden der Begriff „Transformer“ im Wesentlichen die Encoder-Komponente des Transformers bezeichnet). Dieser besteht aus einem unteren Transformer zur Modellierung der Wortebene und einem oberen Transformer zur Erfassung des Kontexts der Äußerungsebenen-Embeddings. Als unteren Transformer verwenden wir einen vortrainierten Sprachmodell – bidirektionale Encoder-Repräsentationen aus Transformers (BERT) –, was äquivalent dazu ist, externe Daten in das Modell einzubringen und somit das Problem der Datenknappheit teilweise zu lösen. Zudem führen wir erstmals Sprecher-Embeddings in das Modell ein, wodurch die Interaktion zwischen Sprechern erfasst werden kann. Experimente an drei Dialog-Emotions-Datensätzen – Friends, EmotionPush und EmoryNLP – zeigen, dass unsere vorgeschlagene hierarchische Transformer-Netzwerkarchitektur gegenüber den aktuellen State-of-the-Art-Methoden jeweils eine Verbesserung von 1,98 %, 2,83 % und 3,94 % in Bezug auf die Makro-F1 erreicht.