11日前
CFN-ESA:会話感情認識を目的とした感情シフト認識付きクロスモーダル統合ネットワーク
Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng

要約
会話におけるマルチモーダル感情認識(ERC)は、さまざまな分野の研究コミュニティからますます注目を集めています。本論文では、感情シフト認識を意識したクロスモーダル融合ネットワーク(CFN-ESA)を提案する。既存の手法は、各モダリティに等しく重みを割り当てており、各モダリティが持つ感情情報の量の違いを区別しないという問題を抱えているため、マルチモーダルデータから補完的な情報を適切に抽出することが困難である。この問題に対処するため、CFN-ESAでは、テキストモダリティを感情情報の主要な源とし、視覚的および音声的モダリティを補助的な源として扱う。さらに、多くのマルチモーダルERCモデルは感情の変化(emotion-shift)に関する情報を無視し、文脈情報に過剰に注目する傾向にあり、結果として感情の変化が生じる状況下での感情認識が失敗する。この課題に対処するために、感情シフトをモデル化するモジュールを設計した。CFN-ESAは、単モーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、および感情シフトモジュール(LESM)の3つの主要構成要素で構成される。RUMEは会話レベルの文脈的かつ感情的な特徴を抽出するとともに、異なるモダリティ間のデータ分布を統合する役割を果たす。ACMEはテキストモダリティを中心としたマルチモーダル相互作用を実現する。LESMは感情の変化をモデル化し、感情シフトの情報を捉えることで、主タスクの学習を効果的に導く。実験結果から、CFN-ESAがERCの性能を顕著に向上させ、最先端モデルを大きく上回ることが確認された。