16일 전
CFN-ESA: 대화 감정 인식을 위한 감정 이동 인식을 갖춘 다중 모달 융합 네트워크
Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng

초록
대화 내 다모달 정서 인식(ERC)은 다양한 분야의 연구 공동체로부터 점점 더 많은 관심을 받고 있다. 본 논문에서는 ERC를 위한 교차 모달 융합 네트워크(자기 감정 전이 인식 기능 포함, CFN-ESA) 를 제안한다. 기존의 접근 방식은 각 모달리티 간에 동일한 가중치를 부여하며, 모달리티 간 정서 정보의 양 차이를 구분하지 않기 때문에, 다모달 데이터로부터 보완적인 정보를 충분히 추출하기 어렵다는 문제가 있다. 이를 해결하기 위해 CFN-ESA에서는 텍스트 모달리티를 정서 정보의 주요 소스로 간주하고, 시각 및 청각 모달리티는 보조 소스로 취급한다. 또한 대부분의 다모달 ERC 모델은 감정 전이 정보를 간과하고 문맥 정보에 과도하게 집중함으로써, 감정 전이 상황에서 정서 인식이 실패하는 경우가 발생한다. 이 문제를 해결하기 위해 감정 전이 정보를 모델링하는 감정 전이 모듈을 도입하였다. CFN-ESA는 주로 단모달 인코더(RUME), 교차 모달 인코더(ACME), 감정 전이 모듈(LESM)로 구성된다. RUME는 대화 수준의 문맥적 정서적 단서를 추출하면서 모달리티 간 데이터 분포를 통합하는 데 사용되며, ACME는 텍스트 모달리티를 중심으로 한 다모달 상호작용을 수행한다. LESM은 감정 전이를 모델링하고 감정 전이 정보를 포착하여 주 작업 학습을 안내하는 데 기여한다. 실험 결과, CFN-ESA가 ERC 성능을 효과적으로 향상시키며, 최신 기술(SOTA) 모델들을 뚜렷하게 초월함을 입증하였다.