19日前

補助的クロスモダリティ相互作用を有する関係的時系列グラフニューラルネットワークを用いた会話理解

Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le
補助的クロスモダリティ相互作用を有する関係的時系列グラフニューラルネットワークを用いた会話理解
要約

感情認識は、人間の会話理解において重要なタスクである。マルチモーダルデータ、例えば言語、音声、顔の表情といった要素が加わることで、その課題はさらに複雑さを増す。一般的なアプローチとして、対話内の各文(発話)に対して感情ラベルを予測する際、グローバルな文脈情報とローカルな文脈情報を活用する手法が用いられる。具体的には、会話レベルでのマルチモーダル相互作用をモデル化することでグローバル表現を捉え、発話者の時間的変化や感情の変動からローカルな情報を推定する。しかし、後者のアプローチは発話レベルにおける重要な要因を無視する傾向がある。さらに、既存の多くは複数モーダルの特徴を統合された入力として扱い、モーダル固有の表現を有効に活用していない。こうした課題に着目し、本研究では、会話理解を目的として、会話レベルのマルチモーダル相互作用と発話レベルの時間的依存性を、モーダル固有のアプローチで効果的に捉えることができる新たなニューラルネットワークフレームワーク「Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction(CORECT)」を提案する。広範な実験により、IEMOCAPおよびCMU-MOSEIデータセットにおけるマルチモーダル感情認識(ERC)タスクにおいて、CORECTが最先端の性能を達成することが確認された。

補助的クロスモダリティ相互作用を有する関係的時系列グラフニューラルネットワークを用いた会話理解 | 論文 | HyperAI超神経