Joyful: Joint Modality Fusion und Graph-Contrastive-Learning für die multimodale Emotionserkennung

Die multimodale Emotionserkennung zielt darauf ab, für jede Äußerung mehrerer Modalitäten Emotionen zu erkennen und hat aufgrund ihrer Anwendung in der Mensch-Maschine-Interaktion zunehmend an Aufmerksamkeit gewonnen. Aktuelle graphenbasierte Ansätze sind nicht in der Lage, gleichzeitig globale Kontextmerkmale und lokale, vielfältige einmodale Merkmale in einem Dialog präzise darzustellen. Zudem neigen sie mit steigender Anzahl von Graphenschichten leicht zu Überglättung (over-smoothing). In diesem Paper stellen wir eine Methode vor, die gemeinsame Modalfusion und graphenbasierte kontrastive Lernung für die multimodale Emotionserkennung integriert (Joyful), bei der Multimodalitätsschmelzung, kontrastives Lernen und Emotionserkennung gemeinsam optimiert werden. Konkret entwickeln wir zunächst einen neuen Mechanismus zur multimodalen Fusion, der eine tiefe Interaktion und Integration zwischen globalen Kontextmerkmalen und modalspezifischen Merkmalen ermöglicht. Anschließend führen wir einen graphenbasierten kontrastiven Lernrahmen mit inter- und intra-View-Kontrastverlusten ein, um unterscheidbarere Repräsentationen für Proben mit unterschiedlichen Stimmungen zu erlernen. Umfassende Experimente auf drei Benchmark-Datensätzen zeigen, dass Joyful gegenüber allen Baselines eine state-of-the-art (SOTA)-Leistung erzielt.