CoMPM: Kontextmodellierung mit prätrainierter Gedächtnisverfolgung des Sprechers für die Emotionserkennung in Gesprächen

Mit dem zunehmenden Einsatz interaktiver Maschinen gewinnt die Aufgabe der Emotionserkennung in Gesprächen (Emotion Recognition in Conversation, ERC) an Bedeutung. Wenn maschinengenerierte Sätze Emotionen widerspiegeln, sind menschlichere, empathischere Gespräche möglich. Da die Emotionserkennung in Gesprächen ungenau ist, wenn die vorherigen Äußerungen nicht berücksichtigt werden, integrieren viele Studien den Dialogkontext, um die Leistung zu verbessern. Viele neuere Ansätze zeigen eine Leistungssteigerung durch die Kombination von Wissen in Modulen, die aus externen strukturierten Daten gelernt wurden. Allerdings ist der Zugriff auf strukturierte Daten in nicht-englischen Sprachen schwierig, was die Übertragbarkeit auf andere Sprachen erschwert. Daher extrahieren wir die vortrainierte Erinnerung mithilfe eines vortrainierten Sprachmodells als Extraktor externen Wissens. Wir stellen CoMPM vor, das die vortrainierte Erinnerung des Sprechers mit dem Kontextmodell kombiniert, und zeigen, dass die vortrainierte Erinnerung die Leistung des Kontextmodells signifikant verbessert. CoMPM erreicht die beste oder zweitbeste Leistung auf allen Datensätzen und ist state-of-the-art unter Systemen, die keine strukturierten Daten nutzen. Zudem zeigt unsere Methode, dass sie auf andere Sprachen erweitert werden kann, da im Gegensatz zu früheren Ansätzen kein strukturiertes Wissen erforderlich ist. Unser Code ist auf GitHub verfügbar (https://github.com/rungjoo/CoMPM).