Multilogue-Net: Ein kontextbewusstes RNN für die multimodale Emotionsdetektion und Sentimentanalyse in Gesprächen

Die Sentimentanalyse und Emotionserkennung in Gesprächen ist für zahlreiche Anwendungen in der Praxis von entscheidender Bedeutung, wobei die zunehmende Verfügbarkeit mehrerer Modalitäten ein besseres Verständnis der zugrundeliegenden Emotionen ermöglicht. Die multimodale Emotionserkennung und Sentimentanalyse kann dabei besonders nützlich sein, da Anwendungen spezifische Teilmengen der verfügbaren Modalitäten je nach vorliegenden Daten nutzen können. Aktuelle Systeme zur multimodalen Verarbeitung scheitern jedoch daran, den Gesprächskontext über alle Modalitäten hinweg angemessen zu erfassen, die Abhängigkeiten zwischen den emotionalen Zuständen von Sprecher und Hörer zu berücksichtigen sowie die Relevanz und Beziehung zwischen den verfügbaren Modalitäten angemessen zu modellieren. In diesem Paper stellen wir eine end-to-end-RNN-Architektur vor, die diese genannten Nachteile adressieren soll. Unser vorgeschlagenes Modell erzielt im Zeitpunkt der Niederschrift eine bessere Leistung als die derzeit beste Lösung auf einem Standard-Datensatz, gemessen an einer Vielzahl von Genauigkeits- und Regressionsmetriken.