Command Palette
Search for a command to run...
MMER: Multimodale Multi-Task-Lernverfahren für die Sprachemotionserkennung
MMER: Multimodale Multi-Task-Lernverfahren für die Sprachemotionserkennung
Sreyan Ghosh Utkarsh Tyagi S Ramaneswaran Harshvardhan Srivastava Dinesh Manocha
Zusammenfassung
In diesem Artikel stellen wir MMER, einen neuartigen Ansatz für multimodales Mehraufgaben-Lernen zur Sprachemotionserkennung, vor. MMER nutzt ein neuartiges multimodales Netzwerk, das auf einer frühen Fusion sowie einem gegenseitigen Selbst-Attention-Mechanismus zwischen Text- und Akustikmodality basiert, und löst drei neuartige Hilfsaufgaben, um die Erkennung von Emotionen in gesprochenen Äußerungen zu verbessern. In der Praxis übertrifft MMER alle unsere Baseline-Modelle und erreicht eine state-of-the-art-Leistung auf dem IEMOCAP-Benchmark. Zudem führen wir umfassende Ablationsstudien und Ergebnisanalysen durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu belegen.