vor 11 Tagen

HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung

Soumya Dutta, Sriram Ganapathy

Abstract

Die Erkennung von Emotionen in Gesprächen ist aufgrund der multimodalen Natur der Emotionsäußerung herausfordernd. Wir schlagen einen hierarchischen Cross-Attention-Modellansatz (HCAM) für die multimodale Emotionserkennung vor, der eine Kombination aus rekurrenten und Co-Attention-Neural-Netzwerken nutzt. Die Eingabedaten des Modells bestehen aus zwei Modalitäten: i) Audio-Daten, die mittels eines lernbaren wav2vec-Ansatzes verarbeitet werden, und ii) Textdaten, die mittels eines bidirektionalen Encoder-Modells aus Transformers (BERT) repräsentiert werden. Die Audio- und Textrepräsentationen werden durch eine Reihe von bidirektionalen rekurrenten neuronalen Netzwerkschichten mit Selbst-Attention verarbeitet, die jeweils eine Äußerung innerhalb eines Gesprächs in eine fest dimensionale Embedding-Darstellung umwandeln. Um kontextuelle Kenntnisse sowie Informationen zwischen den beiden Modalitäten zu integrieren, werden die Audio- und Text-Embeddings mittels einer Co-Attention-Schicht kombiniert, die darauf abzielt, die für die Aufgabe der Emotionserkennung relevanten Äußerungsebenen-Embeddings zu gewichten. Die neuronalen Netzwerkparameter in den Audio- und Textschichten sowie in den multimodalen Co-Attention-Schichten werden hierarchisch für die Emotionsklassifikation trainiert. Wir führen Experimente auf drei etablierten Datensätzen durch, nämlich IEMOCAP, MELD und CMU-MOSI, und zeigen, dass das vorgeschlagene Modell gegenüber anderen Benchmarks erheblich verbesserte Ergebnisse erzielt und auf allen diesen Datensätzen Zustand der Technik (state-of-the-art) erreicht.