4ヶ月前

多モーダルプロンプト変換器とハイブリッドコントラスティブ学習を用いた会話における感情認識

Shihao Zou; Xianying Huang; Xudong Shen
多モーダルプロンプト変換器とハイブリッドコントラスティブ学習を用いた会話における感情認識
要約

会話中の感情認識(Emotion Recognition in Conversation: ERC)は、人間と機械の相互作用の発展を推進する上で重要な役割を果たしています。感情は複数のモダリティに存在し、マルチモーダルERCは主に以下の2つの問題に直面しています:(1) 複合モダリティ情報統合過程におけるノイズ問題、および (2) 意味的に類似しているが異なるカテゴリーの少量サンプル感情ラベルの予測問題です。これらの課題に対処し、各モダリティの特徴を十分に活用するために、以下の戦略を採用しました:まず、表現力が高いモダリティに対して深層感情手がかり抽出を行い、表現力が低いモダリティには特徴フィルターを設計してマルチモーダルプロンプト情報を提供しました。次に、マルチモーダルプロンプトトランスフォーマー(Multimodal Prompt Transformer: MPT)を設計して複合モダリティ情報統合を行いました。MPTは、トランスフォーマーの各注意層にマルチモーダル融合情報を埋め込み、プロンプト情報がテキスト特徴のエンコーディングに参加し、多段階のテキスト情報と融合することでより優れたマルチモーダル融合特徴を得ることができます。最後に、ハイブリッドコントラスティブラーニング(Hybrid Contrastive Learning: HCL)戦略を使用してモデルの少量サンプルラベル処理能力を最適化しました。この戦略では、非教師ありコントラスティブ学習を使用してマルチモーダル融合の表現力を向上させるとともに、教師ありコントラスティブ学習を使用して少量サンプルラベルの情報を掘り下げます。実験結果は、提案したモデルが2つのベンチマークデータセットにおいて最新のERCモデルを上回っていることを示しています。