2ヶ月前
会話における多モーダル感情認識のための自己蒸留を用いたTransformerベースモデル
Hui Ma; Jian Wang; Hongfei Lin; Bo Zhang; Yijia Zhang; Bo Xu

要約
会話中の感情認識(Emotion Recognition in Conversations: ERC)は、各発話の感情を認識するタスクであり、共感的な機械の構築において極めて重要です。既存の研究では、主に文脈と話者に敏感な依存関係をテキストモダリティから抽出することに焦点が当てられており、マルチモーダル情報の重要性が軽視されています。テキスト会話における感情認識とは異なり、発話間のモーダル内およびモーダル間相互作用を捉え、異なるモーダル間の重みを学習し、モーダル表現を強化することがマルチモーダルERCにおいて重要な役割を果たします。本論文では、自己蒸留(Self-Distillation: SDT)機能を持つトランスフォーマーベースモデルを提案します。このトランスフォーマーベースモデルは、モーダル内およびモーダル間トランスフォーマーを利用することで発話間の相互作用を捉え、階層的なゲート融合戦略を設計することで異なるモーダル間の重みを動的に学習します。さらに、より表現力豊かなモーダル表現を学習するために、提案モデルのソフトラベルを追加の訓練監督として扱います。具体的には、自己蒸留を通じてハードラベルとソフトラベルの知識を提案モデルから各モーダルへ転送します。IEMOCAPおよびMELDデータセットでの実験結果は、SDTが従来の最先端基準を超える性能を示していることを証明しています。