S+PAGE: Ein sprach- und positionsbewusstes graphenbasiertes neuronales Netzwerkmodell zur Emotionserkennung in Gesprächen

Die Erkennung von Emotionen in Gesprächen (Emotion Recognition in Conversation, ERC) hat in den letzten Jahren erhebliche Aufmerksamkeit auf sich gezogen, da sie für eine Vielzahl von Anwendungen von entscheidender Bedeutung ist. Bisherige ERC-Methoden modellieren die Eigen- und Inter-Sprecher-Kontextinformationen meist getrennt, was ein wesentliches Problem darstellt, da zwischen diesen Kontexten eine ausreichende Wechselwirkung fehlt. In diesem Paper stellen wir ein neuartiges, sprecher- und positionssensitives Graph-Neuronales Netzwerk für ERC (S+PAGE) vor, das drei Stufen umfasst und die Vorteile sowohl von Transformer- als auch von relationalen Graph-Convolution-Netzwerken (R-GCN) nutzt, um eine verbesserte Kontextmodellierung zu ermöglichen. Zunächst wird ein zweistromiger Gesprächs-Transformer vorgestellt, der grobe Eigen- und Inter-Sprecher-Kontextmerkmale für jede Äußerung extrahiert. Anschließend wird ein sprecher- und positionssensitiver Gesprächsgraph aufgebaut, und wir schlagen ein verbessertes R-GCN-Modell, namens PAG (Position- and Speaker-Aware Graph Convolution), vor, das die groben Merkmale unter Leitung einer relativen Positions-Codeierung verfeinert. Schließlich werden die Merkmale aus den beiden vorherigen Stufen in eine bedingte Zufallsfeld-Schicht (Conditional Random Field, CRF) eingespeist, um den Emotionsübertragungsprozess zu modellieren.