17일 전

MMER: 음성 감정 인식을 위한 다중 모달 다중 작업 학습

Sreyan Ghosh, Utkarsh Tyagi, S Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha

초록

본 논문에서는 말하기 감정 인식(Speech Emotion Recognition)을 위한 새로운 다중 모달 다중 작업 학습 방법인 MMER을 제안한다. MMER은 텍스트 모달리티와 음성 모달리티 간의 조기 융합(early-fusion) 및 교차 모달 자기 주의( cross-modal self-attention) 기반의 새로운 다중 모달 네트워크를 활용하며, 말하는 발화로부터 감정 인식을 학습하기 위한 세 가지 새로운 보조 과제를 제안한다. 실질적인 실험에서 MMER은 모든 기준 모델(baselines)을 능가하며, IEMOCAP 벤치마크에서 최신 기술(SOTA, state-of-the-art) 성능을 달성하였다. 더불어, 제안한 방법의 효과를 입증하기 위해 광범위한 아블레이션 연구(ablation studies) 및 결과 분석을 수행하였다.