HyperAIHyperAI
vor 11 Tagen

HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung

Soumya Dutta, Sriram Ganapathy
HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung
Abstract

Die Erkennung von Emotionen in Gesprächen ist aufgrund der multimodalen Natur der Emotionsäußerung herausfordernd. Wir schlagen einen hierarchischen Cross-Attention-Modellansatz (HCAM) für die multimodale Emotionserkennung vor, der eine Kombination aus rekurrenten und Co-Attention-Neural-Netzwerken nutzt. Die Eingabedaten des Modells bestehen aus zwei Modalitäten: i) Audio-Daten, die mittels eines lernbaren wav2vec-Ansatzes verarbeitet werden, und ii) Textdaten, die mittels eines bidirektionalen Encoder-Modells aus Transformers (BERT) repräsentiert werden. Die Audio- und Textrepräsentationen werden durch eine Reihe von bidirektionalen rekurrenten neuronalen Netzwerkschichten mit Selbst-Attention verarbeitet, die jeweils eine Äußerung innerhalb eines Gesprächs in eine fest dimensionale Embedding-Darstellung umwandeln. Um kontextuelle Kenntnisse sowie Informationen zwischen den beiden Modalitäten zu integrieren, werden die Audio- und Text-Embeddings mittels einer Co-Attention-Schicht kombiniert, die darauf abzielt, die für die Aufgabe der Emotionserkennung relevanten Äußerungsebenen-Embeddings zu gewichten. Die neuronalen Netzwerkparameter in den Audio- und Textschichten sowie in den multimodalen Co-Attention-Schichten werden hierarchisch für die Emotionsklassifikation trainiert. Wir führen Experimente auf drei etablierten Datensätzen durch, nämlich IEMOCAP, MELD und CMU-MOSI, und zeigen, dass das vorgeschlagene Modell gegenüber anderen Benchmarks erheblich verbesserte Ergebnisse erzielt und auf allen diesen Datensätzen Zustand der Technik (state-of-the-art) erreicht.

HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung | Neueste Forschungsarbeiten | HyperAI