UniMSE: Ein Schritt hin zu einer einheitlichen multimodalen Stimmungsanalyse und Emotionserkennung

Multimodale Sentimentanalyse (MSA) und Emotionserkennung in Gesprächen (ERC) sind zentrale Forschungsthemen, um das Verständnis menschlichen Verhaltens durch Computer zu verbessern. Aus psychologischer Sicht stellen Emotionen die kurzfristige Ausdrucksform von Affekten oder Gefühlen dar, während Sentiment über einen längeren Zeitraum entsteht und persistiert. Die meisten bestehenden Arbeiten untersuchen Sentiment und Emotion jedoch getrennt und nutzen das komplementäre Wissen zwischen beiden nicht ausreichend aus. In diesem Paper stellen wir einen multimodalen Sentiment-Wissensaustausch-Framework (UniMSE) vor, der MSA- und ERC-Aufgaben auf Ebene von Merkmalen, Labels und Modellen vereint. Wir führen eine Modalfusion auf syntaktischer und semantischer Ebene durch und integrieren kontrastives Lernen zwischen Modalitäten und Beispielen, um die Unterschiede und Übereinstimmungen zwischen Sentiment und Emotion besser zu erfassen. Experimente auf vier öffentlichen Benchmark-Datensätzen – MOSI, MOSEI, MELD und IEMOCAP – belegen die Wirksamkeit des vorgeschlagenen Ansatzes und zeigen konsistente Verbesserungen gegenüber aktuellen State-of-the-Art-Methoden.