2달 전
대화에서 다중 모드 감정 인식을 위한 자기 증류를 적용한 트랜스포머 기반 모델
Hui Ma; Jian Wang; Hongfei Lin; Bo Zhang; Yijia Zhang; Bo Xu

초록
대화에서의 감정 인식(ERC, Emotion Recognition in Conversations)은 공감 능력이 있는 기계를 구축하는 데 있어 중요한 역할을 합니다. 기존 연구들은 주로 대화의 텍스트 모달리티에서 문맥과 발화자에 민감한 의존성을 포착하는 데 초점을 맞추고 있지만, 다중모달 정보의 중요성은 간과하고 있습니다. 텍스트 대화에서의 감정 인식과는 달리, 다중모달 ERC에서는 발화 간의 내부 및 외부 모달 상호작용을 포착하고, 다양한 모달리티 사이의 가중치를 학습하며, 모달 표현을 강화하는 것이 중요한 역할을 합니다. 본 논문에서는 이 과제를 위해 자기 증류(SDT, Self-Distillation Transformer) 기반의 트랜스포머 모델을 제안합니다. 트랜스포머 기반 모델은 내부 및 외부 모달 트랜스포머를 활용하여 내부 및 외부 모달 상호작용을 포착하고, 계층적 게이트 융합 전략을 설계하여 모달리티 간 가중치를 동적으로 학습합니다. 또한 더 표현력 있는 모달 표현을 학습하기 위해, 제안된 모델의 소프트 라벨을 추가적인 훈련 지도로 처리합니다. 구체적으로, 자기 증류를 도입하여 제안된 모델에서 각 모달리티로 하드 및 소프트 라벨의 지식을 전송합니다. IEMOCAP 및 MELD 데이터셋에서 수행한 실험 결과, SDT가 이전 최신 베이스라인들을 능가함을 보여주었습니다.