대화 내 다중 레이블 감정 분석을 위한 다중 모달 지식 증류

대화 중 발화자 감정을 평가하는 것은 인간-컴퓨터 상호작용을 필요로 하는 다양한 응용 분야에서 핵심적인 과제이다. 그러나 여러 감정 상태가 동시에 발생할 수 있거나(예: '분노'와 '좌절'이 동시에 나타날 수 있음) 서로 영향을 미칠 수 있으며, 이러한 감정의 동적 변화는 발화자의 내적 요인(예: 개인의 사회문화적·교육적 배경 및 인구통계학적 특성)과 외적 맥락에 따라 극적으로 달라질 수 있다. 기존 연구는 특정 시점에 관찰된 주된 감정만을 평가하는 데 집중해 왔으나, 이는 복수 감정 레이블을 다루는 테스트 상황에서 오해를 유발할 수 있는 잘못된 분류 결정을 초래할 수 있다. 본 연구에서는 효율적인 다모달 트랜스포머 네트워크를 기반으로, 자기지도형 다중 레이블 동료 협업 증류(Self-supervised Multi-Label Peer Collaborative Distillation, SeMuL-PCD) 학습을 제안한다. 이 방법은 텍스트, 음성, 시각 등의 각 모달 특화된 동료 네트워크로부터 상호 보완적인 피드백을 수집하여, 단일 모달 통합 융합 네트워크로 증류함으로써 동시에 여러 감정을 추정한다. 제안된 다모달 증류 손실(Multimodal Distillation Loss)은 동료 네트워크와의 카이-스퀘어(Kullback-Leibler) 발산을 최소화함으로써 융합 네트워크의 보정을 수행한다. 또한 각 동료 네트워크는 자기지도형 대조적 목적함수를 통해 조건화되어, 다양한 사회인구학적 배경을 가진 발화자들 사이에서의 일반화 능력을 향상시킨다. 동료 네트워크 간의 협업 학습을 통해 각 모달이 독립적으로 고유한 구분 패턴을 학습할 수 있도록 함으로써, SeMuL-PCD는 다양한 대화 환경에서 효과적인 성능을 발휘한다. 특히, MOSEI, EmoReact, ElderReact 등의 여러 대규모 공개 데이터셋에서 현재 최고 성능을 기록하는 모델들을 능가하며, 데이터셋 간 전이 실험에서 가중 평균 F1 점수 약 17% 향상을 달성하였다. 또한 본 모델은 연령 및 인구학적 배경이 다양할 경우에도 놀라운 일반화 능력을 보여주었다.