4ヶ月前
多様なモーダル感情学習の再検討:広範な状態空間モデルと確率誘導融合を用いて
Yuntao Shou; Tao Meng; Fuchen Zhang; Nan Yin; Keqin Li

要約
多モーダル会話感情認識(MERC)は、人間とコンピュータの相互作用や推薦システムなど、さまざまな分野で注目を集めています。既存の多くの研究では、特徴量分解と融合を用いて多モーダル特徴量から感情的な文脈情報を抽出し、感情分類を行っています。MERCの特性を見直した結果、私たちは特徴量分解段階で長距離の文脈意味情報を取り出すべきであり、特徴量融合段階ではモーダル間の意味情報の一貫性を最大化すべきであると考えています。最近の状態空間モデル(State Space Models: SSMs)に着想を得て、Mambaは効率的に長距離依存関係をモデル化できます。したがって、本研究では上記の洞察を十分に考慮し、MERCの性能向上を目指します。具体的には、一方で特徴量分解段階において、自己注意メカニズムに依存せずにシーケンスモデリングを行うBroad Mambaを提案します。これは状態空間モデルを使用して感情表現を圧縮し、広範な学習システムを利用して広い空間での潜在的なデータ分布を探求します。以前のSSMsとは異なり、双方向SSM畳み込みを設計することで全体的な文脈情報を抽出します。他方で、確率ガイダンスに基づく多モーダル融合戦略を設計し、モーダル間の情報一貫性を最大化します。実験結果は、提案手法がTransformerによる長距離文脈モデリングにおける計算およびメモリ制約を克服できることを示しており、次世代の一般的アーキテクチャとして大きな可能性を持つことが示唆されています。