Lernen einer sprachgeleiteten adaptiven Hyper-Modaltitätsdarstellung für multimodale Sentimentanalyse

Obwohl die multimodale Sentimentanalyse (MSA) aufgrund der Nutzung reicher Informationen aus mehreren Quellen (z. B. Sprache, Video und Audio) als wirksam erwiesen hat, können potenziell sentiment-irrelevante und konflikthafte Informationen zwischen den Modalitäten die weitere Verbesserung der Leistung beeinträchtigen. Um dies zu mildern, präsentieren wir den Adaptive Language-guided Multimodal Transformer (ALMT), der ein Adaptive Hyper-modality Learning (AHL)-Modul enthält, das unter Anleitung von Sprachmerkmalen auf unterschiedlichen Skalen eine Repräsentation lernt, die Irrelevanz und Konflikte zwischen visuellen und auditiven Merkmalen unterdrückt. Mit der so gewonnenen Hyper-modality-Repräsentation kann das Modell durch multimodale Fusion eine ergänzende und gemeinsame Repräsentation erzielen, die für eine effektive MSA nutzbar ist. In der Praxis erreicht ALMT state-of-the-art Ergebnisse auf mehreren gängigen Datensätzen (z. B. MOSI, MOSEI und CH-SIMS), und umfangreiche Ablationstudien belegen die Wirksamkeit und Notwendigkeit unseres Mechanismus zur Unterdrückung von Irrelevanz und Konflikten.