
要約
会話中の感情認識(Emotion Recognition in Conversation: ERC)は、対話システムがユーザーの要求に効果的に応答する上で重要な役割を果たします。ERCでは、音声、視覚、テキストなどのさまざまなモダリティからの表現を利用して感情を識別することができます。しかし、非言語的なモダリティが感情認識への貢献が弱いことから、マルチモーダルERCは常に難易度の高い課題とされてきました。本論文では、教師主導型マルチモーダル融合ネットワーク(Teacher-leading Multimodal fusion network for ERC: TelME)を提案します。TelMEはクロスモーダル知識蒸留を用いて、教師として機能する言語モデルから非言語的学生モデルへ情報を転送することで、弱いモダリティの効果性を最適化します。その後、シフト融合アプローチを使用してマルチモーダル特徴量を結合し、学生ネットワークが教師をサポートする仕組みとなっています。TelMEは多話者会話データセットであるMELDにおいて最先端の性能を達成しました。最後に、追加実験を通じて我々の構成要素の有効性を示しています。