HyperAIHyperAI

Command Palette

Search for a command to run...

HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung

Soumya Dutta Sriram Ganapathy

Zusammenfassung

Die Erkennung von Emotionen in Gesprächen ist aufgrund der multimodalen Natur der Emotionsäußerung herausfordernd. Wir schlagen einen hierarchischen Cross-Attention-Modellansatz (HCAM) für die multimodale Emotionserkennung vor, der eine Kombination aus rekurrenten und Co-Attention-Neural-Netzwerken nutzt. Die Eingabedaten des Modells bestehen aus zwei Modalitäten: i) Audio-Daten, die mittels eines lernbaren wav2vec-Ansatzes verarbeitet werden, und ii) Textdaten, die mittels eines bidirektionalen Encoder-Modells aus Transformers (BERT) repräsentiert werden. Die Audio- und Textrepräsentationen werden durch eine Reihe von bidirektionalen rekurrenten neuronalen Netzwerkschichten mit Selbst-Attention verarbeitet, die jeweils eine Äußerung innerhalb eines Gesprächs in eine fest dimensionale Embedding-Darstellung umwandeln. Um kontextuelle Kenntnisse sowie Informationen zwischen den beiden Modalitäten zu integrieren, werden die Audio- und Text-Embeddings mittels einer Co-Attention-Schicht kombiniert, die darauf abzielt, die für die Aufgabe der Emotionserkennung relevanten Äußerungsebenen-Embeddings zu gewichten. Die neuronalen Netzwerkparameter in den Audio- und Textschichten sowie in den multimodalen Co-Attention-Schichten werden hierarchisch für die Emotionsklassifikation trainiert. Wir führen Experimente auf drei etablierten Datensätzen durch, nämlich IEMOCAP, MELD und CMU-MOSI, und zeigen, dass das vorgeschlagene Modell gegenüber anderen Benchmarks erheblich verbesserte Ergebnisse erzielt und auf allen diesen Datensätzen Zustand der Technik (state-of-the-art) erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HCAM – Hierarchical Cross Attention Model für die multimodale Emotionserkennung | Paper | HyperAI