11日前
MMGCN:会話における感情認識のための深層グラフ畳み込みネットワークを用いたマルチモーダル統合
Jingwen Hu, Yuchen Liu, Jinming Zhao, Qin Jin

要約
会話における感情認識(ERC)は、感情認識対話システムの重要な構成要素であり、システムがユーザーの感情を理解し、共感的な応答を生成するのを支援する。しかし、これまでの多くの研究では、主にテキストモダリティに注目して発話者および文脈情報をモデル化するか、マルチモーダル情報を単に特徴量の連結によって利用するにとどまっている。本研究では、マルチモーダル情報と長距離文脈情報をより効果的に活用する方法を探索するため、マルチモーダル融合型グラフ畳み込みネットワーク(MMGCN)を提案する。MMGCNは、マルチモーダル間の依存関係を効果的に活用できるだけでなく、発話者情報を用いて発話者間および発話者内での依存関係をモデル化することが可能である。提案モデルは、公開ベンチマークデータセットであるIEMOCAPおよびMELD上で評価され、その結果、マルチモーダル会話設定下において、他の最先端(SOTA)手法と比較して顕著な性能向上を示した。