会話における多モーダル感情認識をグラフスペクトルの観点から再検討する

多モーダル会話文脈において一貫性と相補的な意味論的特徴を効率的に捉えることは、多モーダル会話感情認識(Multimodal Emotion Recognition in Conversation: MERC)にとって重要です。既存の手法は主にグラフ構造を使用して対話文脈の意味論的依存関係をモデル化し、グラフニューラルネットワーク(Graph Neural Networks: GNN)を用いて感情認識のための多モーダル意味論的特徴を捉えています。しかし、これらの手法はGNNの固有特性である過度な平滑化や低域フィルタリングによって制限されており、長距離の一貫性情報や相補的情報を効率的に学習することができません。一貫性情報と相補性情報はそれぞれ低周波数情報と高周波数情報に対応することから、本稿ではグラフスペクトルの観点から多モーダル会話感情認識の問題を見直します。具体的には、グラフスペクトルに基づく多モーダル一貫性・相補性協調学習フレームワークGS-MCCを提案します。まず、GS-MCCはスライディングウィンドウを使用して多モーダル相互作用グラフを構築し、対話関係をモデル化します。次に、効率的なフーリエグラフ演算子を使用して、それぞれ長距離の高周波数情報と低周波数情報を抽出します。その後、GS-MCCはコントラスト学習を使用して、高周波数信号と低周波数信号が反映する相補的および一貫した意味論的協調を示す自己教師信号を作成し、これにより高周波数情報と低周波数情報が実際の感情をより正確に反映する能力を向上させます。最後に、GS-MCCは協調された高周波数情報と低周波数情報をMLPネットワークとソフトマックス関数に入力して感情予測を行います。広範な実験により、本稿で提案されたGS-MCCアーキテクチャが2つのベンチマークデータセット上で優れた性能を持つことが証明されています。