MM-DFN: Multimodal Dynamic Fusion Network für die Emotionserkennung in Gesprächen

Die Emotionserkennung in Gesprächen (Emotion Recognition in Conversations, ERC) bietet erhebliches Potenzial für die Entwicklung empathischer Maschinen. Bei der multimodalen ERC ist es entscheidend, den Kontext zu verstehen und die Informationen aus verschiedenen Modalitäten in Gesprächen zu fusionieren. Kürzlich vorgestellte graphbasierte Fusionmethoden aggregieren in der Regel multimodale Informationen, indem sie sowohl unimodale als auch kreuzmodale Interaktionen in einem Graphen untersuchen. Allerdings akkumulieren diese Ansätze redundante Informationen in jeder Schicht, was die Kontextverstehensfähigkeit zwischen den Modalitäten einschränkt. In diesem Artikel stellen wir ein neuartiges Multimodales Dynamisches Fusionssnetzwerk (Multimodal Dynamic Fusion Network, MM-DFN) vor, das Emotionen erkennt, indem es den multimodalen Gesprächskontext vollständig versteht. Insbesondere entwerfen wir ein neues graphbasiertes dynamisches Fusionsmodul, das multimodale kontextuelle Merkmale in einem Gespräch fusioniert. Das Modul reduziert Redundanz und verstärkt die Ergänzungsfähigkeit zwischen den Modalitäten, indem es die Dynamik kontextueller Informationen in unterschiedlichen semantischen Räumen erfasst. Umfangreiche Experimente auf zwei öffentlichen Benchmark-Datensätzen belegen die Wirksamkeit und Überlegenheit von MM-DFN.