3달 전

다자 대화에서 감정 인식을 위한 얼굴 표정 인지 다모달 다중 작업 학습 프레임워크

{Shijin Wang, Rui Xia, Jianfei Yu, Wenjie Zheng}
다자 대화에서 감정 인식을 위한 얼굴 표정 인지 다모달 다중 작업 학습 프레임워크
초록

다중모달 감정 인식(Multimodal Emotion Recognition in Multiparty Conversations, MERMC)은 최근 큰 관심을 끌고 있다. 다중 인물 대화 환경에서 시각적 장면의 복잡성으로 인해, 기존의 대부분의 MERMC 연구는 시각 정보를 무시한 채 주로 텍스트와 오디오 모달리티에 집중해왔다. 최근 몇몇 연구들은 시각적 특징으로 얼굴 시퀀스를 추출하고, MERMC에서 시각 정보의 중요성을 입증하였다. 그러나 기존 방법으로 추출한 얼굴 시퀀스는 한 발화에 대해 여러 사람의 얼굴을 포함할 수 있어, 실제 발화자의 감정 예측에 불필요한 노이즈를 유발할 수 있다. 이 문제를 해결하기 위해, 우리는 '얼굴 표정 인지형 다중모달 다중작업 학습(Facial expression-aware Multimodal Multi-Task learning, FacialMMT)'이라는 이단계 프레임워크를 제안한다. 구체적으로, 각 발화의 실제 발화자 얼굴 시퀀스를 추출하기 위해 다중모달 얼굴 인식, 비지도 얼굴 클러스터링, 얼굴 매칭을 포함하는 파이프라인 방식을 설계하였다. 추출된 얼굴 시퀀스를 바탕으로, 프레임 수준의 얼굴 감정 분포를 활용하여 다중작업 학습 기반으로 문장 수준의 감정 인식 성능을 향상시키는 다중모달 얼굴 표정 인지형 감정 인식 모델을 제안한다. 실험 결과, 제안하는 FacialMMT 프레임워크가 기준 데이터셋인 MELD에서 효과적임을 입증하였다. 소스 코드는 공개적으로 제공되며, https://github.com/NUSTM/FacialMMT 에서 확인할 수 있다.