
초록
최근 몇 년간 깊이 있는 학습 기술의 발전 덕분에 음성 감정 인식(Speech Emotion Recognition, SER) 분야에서 놀라운 진전이 이루어졌다. 그러나 레이블이 부여된 데이터의 제한적인 가용성은 여전히 이 분야에서 큰 도전 과제로 남아 있다. 최근 자율 학습(Self-supervised Learning)이 이러한 문제를 해결할 수 있는 유망한 해결책으로 부상하고 있다. 본 논문에서는 음성 신호로부터 감정을 인식하도록 미세 조정되는 자율 학습 모델인 벡터 양자화 마스크 자동인코더 음성(VQ-MAE-S)을 제안한다. VQ-MAE-S 모델은 벡터 양자화 변분 자동인코더의 이산 잠재 공간에서 작동하는 마스크 자동인코더(Masked Autoencoder, MAE) 기반으로 구성되어 있다. 실험 결과, VoxCeleb2 데이터셋에서 사전 학습하고 감정 음성 데이터에서 미세 조정한 제안된 VQ-MAE-S 모델이 원시 스펙트로그램 표현을 사용하는 MAE 및 기타 최신 기술보다 SER 성능에서 뛰어난 결과를 보였다.