Neuüberprüfung der Entkoppelung und Fusion von Modalität und Kontext in der dialogbasierten multimodalen Emotionserkennung

Es ist ein aktuelles Forschungsthema, Maschinen dazu zu befähigen, menschliche Emotionen in multimodalen Kontexten unter Dialogszenarien zu verstehen, was der Aufgabe der multimodalen Emotionsanalyse im Gespräch (MM-ERC) entspricht. In den letzten Jahren hat MM-ERC kontinuierlich Aufmerksamkeit erfahren, wobei eine Vielzahl von Methoden vorgeschlagen wurde, um die Leistung der Aufgabe zu verbessern. Die meisten bestehenden Ansätze behandeln MM-ERC als ein klassisches multimodales Klassifikationsproblem und führen eine Entkoppelung sowie Fusion multimodaler Merkmale durch, um die Nutzbarkeit der Merkmale zu maximieren. Doch nach einer erneuten Analyse der charakteristischen Eigenschaften von MM-ERC argumentieren wir, dass sowohl die Multimodalität der Merkmale als auch die kontextuelle Einbettung im Gespräch während der Schritte der Entkoppelung und Fusion gleichzeitig angemessen modelliert werden sollten. In dieser Arbeit zielen wir darauf ab, die Leistung der Aufgabe weiter zu steigern, indem wir diese Erkenntnisse umfassend berücksichtigen. Auf der einen Seite entwickeln wir im Prozess der Merkmalsentkoppelung auf Basis der kontrastiven Lernmethode einen Dual-level Disentanglement Mechanism (DDM), um die Merkmale sowohl im Modality-Raum als auch im Äußerungs-Raum zu entkoppeln. Auf der anderen Seite schlagen wir im Schritt der Merkmalsfusion einen Contribution-aware Fusion Mechanism (CFM) und einen Context Refusion Mechanism (CRM) zur Integration von Multimodalität und Gesprächscontext vor. Beide Mechanismen sorgen gemeinsam für eine gezielte Integration der multimodalen und kontextuellen Merkmale. Insbesondere verwaltet CFM die Beiträge der multimodalen Merkmale dynamisch explizit, während CRM die Einführung von Dialogkontexten flexibel koordiniert. Auf zwei öffentlichen MM-ERC-Datensätzen erreicht unser System konsistent neue SOTA-Leistungen (state-of-the-art). Weitere Analysen zeigen, dass alle vorgeschlagenen Mechanismen die MM-ERC-Aufgabe erheblich unterstützen, indem sie die multimodalen und kontextuellen Merkmale adaptiv optimal nutzen. Hinzuweisen ist, dass die vorgeschlagenen Methoden großes Potenzial besitzen, eine breitere Palette weiterer conversationaler multimodaler Aufgaben zu fördern.