COGMEN: COntextualized GNN-basierte multimodale Emotionserkennung

Emotionen sind ein wesentlicher Bestandteil menschlicher Interaktionen, weshalb es unerlässlich ist, KI-Systeme zu entwickeln, die menschliche Emotionen verstehen und erkennen können. Während eines Gesprächs zwischen mehreren Personen werden die Emotionen einer Person durch die Äußerungen der anderen Gesprächspartner sowie durch ihren eigenen emotionalen Zustand über die einzelnen Äußerungen beeinflusst. In diesem Paper stellen wir das COntextualized Graph Neural Network based Multimodal Emotion recognitioN (COGMEN)-System vor, das sowohl lokale Informationen (d. h. inter- und intra-Abhängigkeiten zwischen Sprechern) als auch globale Informationen (Kontext) nutzt. Das vorgeschlagene Modell basiert auf einer Graph Neural Network (GNN)-Architektur, um die komplexen Abhängigkeiten (lokale und globale Informationen) in einem Gespräch effektiv zu modellieren. Unser Modell erzielt state-of-the-art (SOTA)-Ergebnisse auf den Datensätzen IEMOCAP und MOSEI, und detaillierte Ablationsstudien belegen die Bedeutung der Modellierung von Informationen auf beiden Ebenen.