2달 전

MultiMAE-DER: 다중 모드 마스킹 오토인코더를 이용한 동적 감정 인식

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai
MultiMAE-DER: 다중 모드 마스킹 오토인코더를 이용한 동적 감정 인식
초록

본 논문은 다중 모달 데이터를 동적 감정 인식에 처리하기 위한 새로운 접근 방법인 다중 모달 마스킹 오토인코더를 이용한 동적 감정 인식(Multimodal Masked Autoencoder for Dynamic Emotion Recognition, MultiMAE-DER)을 제시합니다. MultiMAE-DER는 시공간 시퀀스 내에서 시각 및 청각 모달 간의 밀접하게 연관된 표현 정보를 활용합니다. 사전 학습된 마스킹 오토인코더 모델을 사용하여, MultiMAE-DER는 간단하고 직관적인 fine-tuning을 통해 완성됩니다. 다중 모달 입력 시퀀스에 대한 여섯 가지 융합 전략을 최적화함으로써 MultiMAE-DER의 성능이 향상됩니다. 이 전략들은 공간, 시간 및 시공간 시퀀스 내에서 크로스 도메인 데이터의 동적 특징 상관관계를 해결합니다. 기존의 동적 감정 인식을 위한 다중 모달 지도 학습 모델과 비교할 때, MultiMAE-DER는 RAVDESS 데이터셋에서 가중 평균 재현율(WAR)이 4.41% 향상되었으며, CREMAD 데이터셋에서는 2.06% 향상되었습니다. 또한, 다중 모달 자기지도 학습의 최신 모델과 비교할 때, IEMOCAP 데이터셋에서 1.86% 더 높은 WAR를 달성하였습니다.