Command Palette
Search for a command to run...
GA2MIF:会話感情検出を目的としたグラフおよびアテンションベースの2段階多源情報統合手法
GA2MIF:会話感情検出を目的としたグラフおよびアテンションベースの2段階多源情報統合手法
Jiang Li Xiaoping Wang Guoqing Lv Zhigang Zeng
概要
会話におけるマルチモーダル感情認識(ERC)は、人間とコンピュータの相互作用および会話型ロボット分野において重要な役割を果たしており、機械が共感的なサービスを提供できるようにする点で注目されている。近年、人間が複数の感覚を統合する能力に着想を得て、マルチモーダルデータモデリングは注目される研究分野となっている。いくつかのグラフベースのアプローチは、モダリティ間の相互作用情報を捉えることを主張しているが、マルチモーダルデータの異質性により、これらの手法は最適な解決策を導くことが困難である。本研究では、会話中の感情検出を目的として、グラフとアテンションに基づく二段階マルチソース情報統合(GA2MIF)と呼ばれる新しいマルチモーダル統合手法を提案する。本手法は、異質なグラフをモデルの入力として扱う問題を回避しつつ、グラフ構築における複雑で冗長な接続を排除する。GA2MIFは、マルチヘッド有向グラフアテンションネットワーク(MDGATs)を用いて文脈モデリングを、マルチヘッドペアワイズクロスモーダルアテンションネットワーク(MPCATs)を用いてクロスモーダルモデリングをそれぞれ実現する。公開データセット(IEMOCAPおよびMELD)における広範な実験の結果、提案手法GA2MIFは、モダリティ内における長距離文脈情報およびモダリティ間の補完的情報を有効に捉える能力を有しており、従来の最先端(SOTA)モデルと比較して顕著な性能向上を達成したことが確認された。