11일 전
MMGCN: 대화 내 감정 인식을 위한 깊이 있는 그래프 컨볼루션 네트워크를 통한 다중 모달 융합
Jingwen Hu, Yuchen Liu, Jinming Zhao, Qin Jin

초록
대화 내 감정 인식(ERC, Emotion Recognition in Conversation)은 정서 대화 시스템의 핵심 구성 요소로, 사용자의 정서를 이해하고 공감적인 응답을 생성하는 데 기여한다. 그러나 기존 연구 대부분은 텍스트 모달리티에 주로 초점을 맞추어 화자 및 맥락 정보를 모델링하거나, 단순히 특징 연결을 통해 다중모달 정보를 활용하는 데 그치고 있다. 본 연구에서는 다중모달 정보와 장거리 맥락 정보를 보다 효과적으로 활용할 수 있는 새로운 방법을 탐색하기 위해, 다중모달 융합 그래프 컨볼루션 네트워크(MMGCN, Multimodal Fused Graph Convolutional Network) 기반의 모델을 제안한다. MMGCN은 다중모달 간의 종속성을 효과적으로 활용할 뿐만 아니라, 화자 정보를 활용하여 화자 간 및 화자 내 종속성을 모델링할 수 있다. 제안된 모델은 공개 벤치마크 데이터셋인 IEMOCAP과 MELD에서 평가되었으며, 결과는 MMGCN의 효과성을 입증하며 다중모달 대화 환경에서 기존 최고 수준(SOTA)의 방법들을 상당한 차이로 앞서는 성능을 보였다.