HyperAIHyperAI
vor 17 Tagen

Lernen einer sprachgeleiteten adaptiven Hyper-Modaltitätsdarstellung für multimodale Sentimentanalyse

Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu Yu
Lernen einer sprachgeleiteten adaptiven Hyper-Modaltitätsdarstellung für multimodale Sentimentanalyse
Abstract

Obwohl die multimodale Sentimentanalyse (MSA) aufgrund der Nutzung reicher Informationen aus mehreren Quellen (z. B. Sprache, Video und Audio) als wirksam erwiesen hat, können potenziell sentiment-irrelevante und konflikthafte Informationen zwischen den Modalitäten die weitere Verbesserung der Leistung beeinträchtigen. Um dies zu mildern, präsentieren wir den Adaptive Language-guided Multimodal Transformer (ALMT), der ein Adaptive Hyper-modality Learning (AHL)-Modul enthält, das unter Anleitung von Sprachmerkmalen auf unterschiedlichen Skalen eine Repräsentation lernt, die Irrelevanz und Konflikte zwischen visuellen und auditiven Merkmalen unterdrückt. Mit der so gewonnenen Hyper-modality-Repräsentation kann das Modell durch multimodale Fusion eine ergänzende und gemeinsame Repräsentation erzielen, die für eine effektive MSA nutzbar ist. In der Praxis erreicht ALMT state-of-the-art Ergebnisse auf mehreren gängigen Datensätzen (z. B. MOSI, MOSEI und CH-SIMS), und umfangreiche Ablationstudien belegen die Wirksamkeit und Notwendigkeit unseres Mechanismus zur Unterdrückung von Irrelevanz und Konflikten.

Lernen einer sprachgeleiteten adaptiven Hyper-Modaltitätsdarstellung für multimodale Sentimentanalyse | Neueste Forschungsarbeiten | HyperAI