15일 전

GA2MIF: 대화형 감정 탐지를 위한 그래프 및 어텐션 기반 이단계 다중 소스 정보 융합

Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng
GA2MIF: 대화형 감정 탐지를 위한 그래프 및 어텐션 기반 이단계 다중 소스 정보 융합
초록

대화 내 다모달 정서 인식(Multimodal Emotion Recognition in Conversation, ERC)은 인간-컴퓨터 상호작용 및 대화형 로봇 분야에서 기계가 공감 능력을 갖춘 서비스를 제공할 수 있도록 유도한다는 점에서 중요한 역할을 한다. 최근 몇 년간, 인간이 다양한 감각을 통합하는 능력에 영감을 받아 다모달 데이터 모델링이 주목받는 연구 분야로 부상하고 있다. 몇몇 그래프 기반 접근법들은 모달 간의 상호작용 정보를 포착할 수 있다고 주장하지만, 다모달 데이터의 이질성으로 인해 이러한 방법들은 최적의 해결책을 도출하기 어렵다. 본 연구에서는 대화 내 정서 탐지에 적합한 다모달 융합 기법인 '그래프 및 주의 기반 이단계 다원소 정보 융합(Graph and Attention based Two-stage Multi-source Information Fusion, GA2MIF)'을 제안한다. 제안한 방법은 이질적인 그래프를 모델의 입력으로 사용하는 문제를 회피하면서도, 그래프 구축 과정에서 복잡한 중복 연결을 제거함으로써 효율성을 극대화한다. GA2MIF는 다중 헤드 방향성 그래프 주의망(Multi-head Directed Graph ATtention networks, MDGATs)을 활용하여 문맥 모델링을 수행하고, 다중 헤드 쌍별 다모달 주의망(Multi-head Pairwise Cross-modal ATtention networks, MPCATs)을 통해 모달 간 상호보완적 정보를 효과적으로 학습한다. 공개된 두 가지 데이터셋(IEMOCAP 및 MELD)을 대상으로 수행한 광범위한 실험 결과는, GA2MIF가 내모달 간 장거리 문맥 정보와 다모달 간 보완적 정보를 효과적으로 포착할 수 있으며, 기존의 최신 기술(SOTA, State-of-the-art) 모델들에 비해 뚜렷한 성능 우위를 보임을 입증하였다.

GA2MIF: 대화형 감정 탐지를 위한 그래프 및 어텐션 기반 이단계 다중 소스 정보 융합 | 최신 연구 논문 | HyperAI초신경