HyperAIHyperAI
vor 11 Tagen

CFN-ESA: Ein multimodaler Fusionsnetzwerk mit Emotionsverschiebungsbewusstsein für die Erkennung von Emotionen in Dialogen

Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng
CFN-ESA: Ein multimodaler Fusionsnetzwerk mit Emotionsverschiebungsbewusstsein für die Erkennung von Emotionen in Dialogen
Abstract

Die multimodale Emotionserkennung in Gesprächen (ERC) hat in den letzten Jahren zunehmend Aufmerksamkeit in verschiedenen Forschungsbereichen gefunden. In diesem Artikel stellen wir einen Cross-modal Fusion Network mit Emotion-Shift Awareness (CFN-ESA) für die ERC vor. Bisherige Ansätze behandeln alle Modalitäten gleichwertig, ohne die jeweilige Menge an emotionaler Information in den einzelnen Modalitäten zu berücksichtigen, was die adäquate Extraktion komplementärer Informationen aus multimodalen Daten erschwert. Um dieses Problem anzugehen, betrachten wir in CFN-ESA die textuelle Modalität als primäre Quelle emotionaler Information, während visuelle und akustische Modalitäten als sekundäre Quellen dienen. Zudem ignorieren die meisten multimodalen ERC-Modelle Emotionswechselinformationen und konzentrieren sich übermäßig auf kontextuelle Informationen, was zu einer Versagen der Emotionserkennung unter Emotionswechsel-Szenarien führt. Um dieser Herausforderung zu begegnen, integrieren wir ein spezielles Emotionswechsel-Modul. CFN-ESA besteht hauptsächlich aus einem Unimodal-Encoder (RUME), einem Cross-modal-Encoder (ACME) und einem Emotionswechsel-Modul (LESM). RUME dient zur Extraktion kontextueller emotionaler Hinweise auf Gesprächsebene und zur Angleichung der Datenausbreitungen zwischen den Modalitäten; ACME ermöglicht die multimodale Interaktion, die auf der textuellen Modalität zentriert ist; LESM modelliert Emotionswechsel und erfasst Emotionswechsel-Informationen, um so die Lernprozesse für die Hauptaufgabe zu leiten. Experimentelle Ergebnisse zeigen, dass CFN-ESA die Leistung der ERC effektiv verbessert und signifikant gegenüber aktuellen State-of-the-Art-Modellen abschneidet.

CFN-ESA: Ein multimodaler Fusionsnetzwerk mit Emotionsverschiebungsbewusstsein für die Erkennung von Emotionen in Dialogen | Neueste Forschungsarbeiten | HyperAI