Command Palette
Search for a command to run...
効率的な長距離潜在関係を考慮したグラフニューラルネットワークによる会話における多モーダル感情認識
効率的な長距離潜在関係を考慮したグラフニューラルネットワークによる会話における多モーダル感情認識
Yuntao Shou Wei Ai Jiayi Du Tao Meng* Haiyan Liu Nan Yin
概要
会話における多モーダル感情認識(MERC)の課題は、会話内の多モーダル情報を基に各発話の真の感情状態を分析することを目的としており、これは会話理解において重要な役割を果たします。既存の手法では、グラフニューラルネットワーク(GNN)を使用して会話関係をモデル化し、文脈的な潜在的な意味関係を捉えることに焦点が当てられています。しかし、GNNの複雑さにより、既存の手法は長距離発話間の潜在的な依存関係を効率的に捉えることができず、これがMERCの性能を制限しています。本論文では、多モーダル感情認識のために効率的な長距離潜在関係対応グラフニューラルネットワーク(ELR-GNN)を提案します。具体的には、まず事前に抽出したテキスト、ビデオ、およびオーディオ特徴量をBi-LSTMに入力し、文脈的な意味情報を取り込み低レベルの発話特徴量を得ます。次に、これらの低レベルの発話特徴量を使用して会話感情相互作用グラフを構築します。長距離発話間の潜在的な依存関係を効率的に捉えるために、拡張された一般化前進プッシュアルゴリズムを使用して全発話間での感情伝播を事前計算し、異なる発話間での潜在的な意味的関連性を捉えるため的情感関係対応演算子を設計します。さらに、早期融合と適応的後期融合メカニズムを組み合わせて、話し手間の関係情報と文脈との間の潜在的な依存情報を融合させます。最後に、高レベルなディスコース特徴量を得てMLPに投入することで感情予測を行います。広範な実験結果から、ELR-GNNはベンチマークデータセットIEMOCAPとMELDで最先端の性能を達成しており、それぞれ52%と35%の処理時間短縮が確認されました。