17日前
言語ガイド付き適応型ハイパーモダリティ表現学習によるマルチモーダルセンチメント分析
Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu Yu

要約
マルチモーダル感情分析(MSA)は、言語、映像、音声など複数の情報源から得られる豊富な情報を活用することで、有効性が実証されている。しかし、異なるモダリティ間には感情に無関係な情報や矛盾する情報が存在する可能性があり、これにより性能のさらなる向上が阻害されることがある。この課題を軽減するため、本研究では、異なるスケールの言語特徴に基づいて視覚的および音声的特徴から、無関係性・矛盾性を抑制する表現を学習する「適応的ハイパーモダリティ学習(AHL)」モジュールを組み込んだ、適応的言語誘導型マルチモーダルトランスフォーマー(ALMT)を提案する。得られたハイパーモダリティ表現を用いることで、マルチモーダル融合により補完的かつ統合的な表現を獲得し、効果的なMSAが実現可能となる。実際の評価では、ALMTはMOSI、MOSEI、CH-SIMSなど複数の代表的なデータセットで最先端の性能を達成しており、豊富なアブレーション実験から、無関係性・矛盾性抑制機構の有効性および必要性が確認された。