11일 전

LSSED: 음성 감정 인식을 위한 대규모 데이터셋 및 벤치마크

Weiquan Fan, Xiangmin Xu, Xiaofen Xing, Weidong Chen, Dongyan Huang

초록

음성 정서 인식은 차세대 인간-컴퓨터 상호작용(HCI)의 핵심 요소로 주목받고 있다. 그러나 기존의 소규모 데이터베이스는 관련 연구의 발전을 제한하고 있었다. 본 논문에서는 실제 환경의 분포를 모사하기 위해 820명의 피험자로부터 수집한 데이터를 포함한 도전적인 대규모 영어 음성 정서 데이터셋인 LSSED를 제안한다. 또한 LSSED 기반으로 사전 학습된 모델들을 공개함으로써, 음성 정서 인식 기술의 발전을 촉진할 뿐만 아니라, 데이터 수집이 매우 어려운 정신 건강 분석과 같은 관련 후속 작업에까지 전이 학습이 가능하도록 한다. 마지막으로, 실험 결과를 통해 대규모 데이터셋의 필요성과 사전 학습 모델의 효과성을 입증하였다. 본 데이터셋은 https://github.com/tobefans/LSSED 에서 공개될 예정이다.