Command Palette
Search for a command to run...
MM-DFN: Multimodal Dynamic Fusion Network für die Emotionserkennung in Gesprächen
MM-DFN: Multimodal Dynamic Fusion Network für die Emotionserkennung in Gesprächen
Dou Hu Xiaolong Hou Lingwei Wei Lianxin Jiang Yang Mo
Zusammenfassung
Die Emotionserkennung in Gesprächen (Emotion Recognition in Conversations, ERC) bietet erhebliches Potenzial für die Entwicklung empathischer Maschinen. Bei der multimodalen ERC ist es entscheidend, den Kontext zu verstehen und die Informationen aus verschiedenen Modalitäten in Gesprächen zu fusionieren. Kürzlich vorgestellte graphbasierte Fusionmethoden aggregieren in der Regel multimodale Informationen, indem sie sowohl unimodale als auch kreuzmodale Interaktionen in einem Graphen untersuchen. Allerdings akkumulieren diese Ansätze redundante Informationen in jeder Schicht, was die Kontextverstehensfähigkeit zwischen den Modalitäten einschränkt. In diesem Artikel stellen wir ein neuartiges Multimodales Dynamisches Fusionssnetzwerk (Multimodal Dynamic Fusion Network, MM-DFN) vor, das Emotionen erkennt, indem es den multimodalen Gesprächskontext vollständig versteht. Insbesondere entwerfen wir ein neues graphbasiertes dynamisches Fusionsmodul, das multimodale kontextuelle Merkmale in einem Gespräch fusioniert. Das Modul reduziert Redundanz und verstärkt die Ergänzungsfähigkeit zwischen den Modalitäten, indem es die Dynamik kontextueller Informationen in unterschiedlichen semantischen Räumen erfasst. Umfangreiche Experimente auf zwei öffentlichen Benchmark-Datensätzen belegen die Wirksamkeit und Überlegenheit von MM-DFN.