Konversationelle Transfer-Learning für die Emotionserkennung

Die Erkennung von Emotionen in Gesprächen stellt aufgrund der Vorhandensein kontextueller Abhängigkeiten, die durch selbst- und interpersonelle Einflüsse bestimmt sind, eine herausfordernde Aufgabe dar. Rekente Ansätze haben sich primär darauf konzentriert, diese Abhängigkeiten mittels überwachten Lernverfahren zu modellieren. Allerdings erfordern rein überwachte Strategien große Mengen an annotierten Daten, die in den meisten verfügbaren Korpora für diese Aufgabe fehlen. Um dieser Herausforderung zu begegnen, untersuchen wir Transferlernen als eine vielversprechende Alternative. Angesichts der großen Menge verfügbarer Gesprächsdaten fragen wir uns, ob generative Gesprächsmodelle genutzt werden können, um affektives Wissen zur Emotionsdetektion im Kontext zu übertragen. Wir schlagen einen Ansatz namens TL-ERC vor, bei dem zunächst ein hierarchisches Dialogmodell auf mehrschrittigen Gesprächen (Quelle) vortrainiert wird und anschließend dessen Parameter auf einen Gesprächs-Emotions-Klassifikator (Ziel) übertragen werden. Im Gegensatz zur gängigen Praxis, nur vortrainierte Satz-Encoder zu verwenden, integriert unser Ansatz zudem rekurrente Parameter, die den inter-sentenziellen Kontext über das gesamte Gespräch hinweg modellieren. Auf Basis dieser Idee führen wir mehrere Experimente an mehreren Datensätzen durch und beobachten eine Verbesserung der Leistung sowie eine höhere Robustheit gegenüber begrenzten Trainingsdaten. Zudem erreicht TL-ERC signifikant bessere Validierungsleistungen in weitaus weniger Epochen. Insgesamt schließen wir, dass Wissen, das aus Dialoggeneratoren gewonnen wird, tatsächlich zur Erkennung von Emotionen in Gesprächen beitragen kann.