HyperAIHyperAI
vor 17 Tagen

Verbesserung der multimodalen Fusion durch hierarchische Maximierung der gegenseitigen Information für die multimodale Sentimentanalyse

Wei Han, Hui Chen, Soujanya Poria
Verbesserung der multimodalen Fusion durch hierarchische Maximierung der gegenseitigen Information für die multimodale Sentimentanalyse
Abstract

In der multimodalen Sentimentanalyse (MSA) hängt die Leistung eines Modells stark von der Qualität der synthetisierten Embeddings ab. Diese Embeddings werden aus dem vorgelagerten Prozess der multimodalen Fusion generiert, dessen Ziel darin besteht, die eingegebenen unimodalen Rohdaten zu extrahieren und zu kombinieren, um eine reichhaltigere multimodale Darstellung zu erzeugen. Frühere Ansätze optimieren entweder durch Rückpropagation des Aufgabenverlustes oder durch Manipulation der geometrischen Eigenschaften des Merkmalsraums die Fusionsergebnisse, wobei jedoch die Erhaltung kritischer, aufgabenrelevanter Informationen, die vom Eingabedatenstrom bis hin zu den Fusionsergebnissen fließen, vernachlässigt wird. In dieser Arbeit stellen wir einen Rahmen namens MultiModal InfoMax (MMIM) vor, der hierarchisch die gegenseitige Information (Mutual Information, MI) zwischen unimodalen Eingabepaaren (intermodal) und zwischen dem multimodalen Fusionsergebnis und den unimodalen Eingaben maximiert, um aufrechterhaltene, aufgabenrelevante Informationen durch die multimodale Fusion zu gewährleisten. Der Rahmen wird gemeinsam mit der Hauptaufgabe (MSA) trainiert, um die Leistung der nachgelagerten MSA-Aufgabe zu verbessern. Um das praktisch unlösbare Problem der MI-Schranken zu bewältigen, leiten wir eine Reihe rechnerisch einfacher parametrischer und nichtparametrischer Methoden ab, um deren tatsächlichen Wert zu approximieren. Experimentelle Ergebnisse auf zwei weit verbreiteten Datensätzen belegen die Wirksamkeit unseres Ansatzes. Die Implementierung dieser Arbeit ist öffentlich unter https://github.com/declare-lab/Multimodal-Infomax verfügbar.

Verbesserung der multimodalen Fusion durch hierarchische Maximierung der gegenseitigen Information für die multimodale Sentimentanalyse | Neueste Forschungsarbeiten | HyperAI