vor 17 Tagen

MMER: Multimodale Multi-Task-Lernverfahren für die Sprachemotionserkennung

Sreyan Ghosh, Utkarsh Tyagi, S Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha

Abstract

In diesem Artikel stellen wir MMER, einen neuartigen Ansatz für multimodales Mehraufgaben-Lernen zur Sprachemotionserkennung, vor. MMER nutzt ein neuartiges multimodales Netzwerk, das auf einer frühen Fusion sowie einem gegenseitigen Selbst-Attention-Mechanismus zwischen Text- und Akustikmodality basiert, und löst drei neuartige Hilfsaufgaben, um die Erkennung von Emotionen in gesprochenen Äußerungen zu verbessern. In der Praxis übertrifft MMER alle unsere Baseline-Modelle und erreicht eine state-of-the-art-Leistung auf dem IEMOCAP-Benchmark. Zudem führen wir umfassende Ablationsstudien und Ergebnisanalysen durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu belegen.