HyperAIHyperAI
vor 4 Monaten

Multimodaler Prompt-Transformer mit hybrider kontrastiver Lernmethode für die Emotionserkennung in Konversationen

Shihao Zou; Xianying Huang; Xudong Shen
Multimodaler Prompt-Transformer mit hybrider kontrastiver Lernmethode für die Emotionserkennung in Konversationen
Abstract

Die Emotionserkennung in Konversationen (ERC) spielt eine wichtige Rolle bei der Förderung der Entwicklung von Mensch-Maschine-Interaktion. Emotionen können in mehreren Modalitäten auftreten, und die multimodale ERC steht vor zwei Hauptproblemen: (1) dem Rauschproblem im Prozess der übermodalen Informationsfusion und (2) dem Vorhersageproblem von Emotionslabels mit wenigen Beispielen, die semantisch ähnlich, aber unterschiedliche Kategorien haben. Um diese Probleme zu lösen und die Merkmale jeder Modalität vollständig zu nutzen, haben wir folgende Strategien angewendet: Erstens wurde eine tiefe Extraktion von Emotionshinweisen in Modalitäten mit starker Darstellungsfähigkeit durchgeführt, und für Modalitäten mit schwacher Darstellungsfähigkeit wurden Merkmalsfilter als multimodale Promptinformationen entwickelt. Anschließend haben wir einen Multimodalen Prompt Transformer (MPT) entworfen, um die übermodale Informationsfusion durchzuführen. Der MPT integriert multimodale Fusioninformationen in jede Aufmerksamkeitsschicht des Transformers, wodurch Promptinformationen am Codieren textbasierter Merkmale beteiligt werden und sich mit mehrstufiger textbasierter Information verschmelzen, um bessere multimodale Fusionmerkmale zu erzielen. Schließlich haben wir die Hybrid Contrastive Learning (HCL)-Strategie verwendet, um die Fähigkeit des Modells zur Behandlung von Labels mit wenigen Beispielen zu optimieren. Diese Strategie nutzt unüberwachtes Contrastive Learning, um die Darstellungsfähigkeit der multimodal fusionierten Daten zu verbessern, und überwachtes Contrastive Learning, um Informationen aus Labels mit wenigen Beispielen zu gewinnen. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell auf zwei Benchmark-Datensätzen den aktuellen Stand der Technik in ERC übertreffen kann.