16日前
COGMEN:コンテキスト付きGNNを用いたマルチモーダル感情認識
Abhinav Joshi, Ashwani Bhat, Ayush Jain, Atin Vikram Singh, Ashutosh Modi

要約
感情は人間関係の本質的な要素であり、そのため、AIシステムが人間の感情を理解し認識できるようにする開発が不可欠である。会話において複数の人物が関与する状況では、一人の人物の感情は他者の発話内容および自身の発話にわたる感情状態に影響を受ける。本稿では、局所的情報(すなわち、発話者間および発話者内における依存関係)とグローバルな情報(文脈)を活用する、文脈化されたグラフニューラルネットワークを基盤とするマルチモーダル感情認識システムであるCOntextualized Graph Neural Network based Multimodal Emotion recognitioN(COGMEN)を提案する。提案モデルは、グラフニューラルネットワーク(GNN)を用いたアーキテクチャにより、会話における複雑な依存関係(局所的およびグローバルな情報)を効果的にモデル化する。本モデルは、IEMOCAPおよびMOSEIデータセットにおいて、既存の最先端(SOTA)性能を達成しており、詳細なアブレーション実験から、両レベルの情報を同時にモデル化することが重要であることが示された。