11일 전

대조형 비지도 학습을 통한 음성 감정 인식

Mao Li, Bo Yang, Joshua Levy, Andreas Stolcke, Viktor Rozgic, Spyros Matsoukas, Constantinos Papayiannis, Daniel Bone, Chao Wang
대조형 비지도 학습을 통한 음성 감정 인식
초록

음성 정서 인식(Speech Emotion Recognition, SER)은 보다 자연스러운 인간-기계 간 상호작용을 가능하게 하는 핵심 기술이다. 그러나 SER는 오랫동안 공개된 대규모 레이블링된 데이터셋의 부족으로 인해 어려움을 겪어왔다. 이 문제를 극복하기 위해, 본 연구에서는 레이블이 없는 데이터셋을 대상으로 한 비지도 표현 학습이 SER에 어떻게 기여할 수 있는지 탐구한다. 실험을 통해 대조적 예측 코드화(Contrastive Predictive Coding, CPC) 방법이 레이블이 없는 데이터셋으로부터 중요한 특징 표현을 학습할 수 있음을 보여주며, 이는 정서 인식 성능을 향상시킨다. 본 연구의 실험 결과, IEMOCAP 데이터셋에서 모든 정서 원소(활성도, 긍정성, 지배성)에 대해 최신 기술 수준의 일치상관계수(Concordance Correlation Coefficient, CCC) 성능을 달성하였다. 또한 MSP-Podcast 데이터셋에서도 기존의 기준 모델 대비 상당한 성능 향상을 얻었다.

대조형 비지도 학습을 통한 음성 감정 인식 | 최신 연구 논문 | HyperAI초신경