4달 전
TelME: 대화에서 감정 인식을 위한 교사 주도 다중 모드 융합 네트워크
Taeyang Yun; Hyunkuk Lim; Jeonghwan Lee; Min Song

초록
대화에서 감정 인식(Emotion Recognition in Conversation, ERC)은 대화 시스템이 사용자의 요청에 효과적으로 응답할 수 있게 하는 중요한 역할을 합니다. 대화의 감정은 오디오, 시각적 정보, 텍스트 등 다양한 모달리티로부터 추출된 표현을 통해 식별될 수 있습니다. 그러나 비언어적 모달리티가 감정 인식에 미치는 영향이 약하기 때문에 다중모달 ERC는 항상 어려운 과제로 여겨져 왔습니다. 본 논문에서는 다중모달 융합 네트워크인 Teacher-leading Multimodal fusion network for ERC (TelME)를 제안합니다. TelME는 교차 모달 지식 전송(cross-modal knowledge distillation)을 활용하여 언어 모델(teacher)로부터 비언어 학생들(student)에게 정보를 전달함으로써 약한 모달리티의 효율성을 최적화합니다. 그런 다음, 학생 네트워크가 교사에게 지원하는 방식으로 이동 융합(shifting fusion) 접근법을 사용하여 다중모달 특징을 결합합니다. TelME는 다중 화자 대화 데이터셋인 MELD에서 최고 성능을 달성하였습니다. 마지막으로, 추가 실험을 통해 본 연구의 구성 요소들의 효과성을 입증하였습니다.