
要約
会話における多モーダル感情認識(MERC)は最近、多くの研究の注目を集めています。既存のMERC手法には以下の課題があります:(1) 直接的なモーダル間の手がかりを十分に活用できず、クロスモーダルモデリングが不完全になる可能性がある;(2) 各ネットワーク層で同じモーダルと異なるモーダルから情報を同時に抽出するため、マルチソースデータの融合による矛盾が生じる可能性がある;(3) 動的な感情変化を検出するための機敏さに欠けており、急激な感情転換を持つ発話の分類が不正確になる可能性がある。これらの課題に対処するために、多モーダル対話における複雑な感情的手がかりを追跡する新しいアプローチであるGraphSmileが提案されました。GraphSmileはGSFとSDPモジュールという2つの主要な構成要素から成ります。GSFは巧妙にグラフ構造を利用し、層ごとに交互にモーダル間およびモーダル内の感情依存関係を取り入れることで、クロスモーダル手がかりを適切に捉えつつ、効果的に融合の矛盾を回避します。SDPは補助タスクとして機能し、発話間の感情動態を明確に区別することで、モデルが感情的な違いを見分ける能力を向上させます。さらに、GraphSmileは会話における多モーダル感情分析(MSAC)にも容易に適用でき、MERCとMSACタスクを実行できる統合された多モーダル情感モデルを形成します。複数のベンチマークでの経験的結果は、GraphSmileが複雑な感情パターンと情緒パターンを処理できることを示しており、ベースラインモデルに対して著しく優れた性能を発揮しています。