11日前

GraphCFC:マルチモーダル会話感情認識のための有向グラフに基づくクロスモーダル特徴補完手法

Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng
GraphCFC:マルチモーダル会話感情認識のための有向グラフに基づくクロスモーダル特徴補完手法
要約

会話中の感情認識(Emotion Recognition in Conversation, ERC)は、共感的なサービスを提供できるため、人間-コンピュータインタラクション(Human-Computer Interaction, HCI)システムにおいて重要な役割を果たしている。マルチモーダルERCは、単一モーダルアプローチの欠点を緩和することができる。近年、関係性モデリングにおいて優れた性能を発揮するため、グラフニューラルネットワーク(Graph Neural Networks, GNNs)はさまざまな分野で広く利用されている。マルチモーダルERCにおいて、GNNは長距離の文脈情報およびモーダル間の相互作用情報を効果的に抽出できる。しかし、従来の手法(例:MMGCN)が複数モーダルを直接統合するため、冗長な情報が生成され、多様な情報が失われる可能性がある。本研究では、文脈情報および相互作用情報を効率的にモデル化できる、方向性を持つグラフに基づくクロスモーダル特徴補完(Graph-based Cross-modal Feature Complementation, GraphCFC)モジュールを提案する。GraphCFCは、複数の部分空間抽出器とペアワイズクロスモーダル補完(Pair-wise Cross-modal Complementary, PairCC)戦略を用いることで、マルチモーダル統合における異質性ギャップの問題を軽減する。構築されたグラフから多様な種類のエッジを抽出して符号化することで、GNNがメッセージ伝達の過程において、より正確に重要な文脈情報および相互作用情報を抽出できる。さらに、マルチモーダル学習に向けた新しい統一ネットワークフレームワークを提供するGNN構造「GAT-MLP」を設計した。2つのベンチマークデータセットにおける実験結果から、本手法であるGraphCFCが最先端(SOTA)手法を上回ることを確認した。

GraphCFC:マルチモーダル会話感情認識のための有向グラフに基づくクロスモーダル特徴補完手法 | 最新論文 | HyperAI超神経