16일 전
대규모 원시 감정 데이터셋 및 집계 메커니즘
Vladimir Kondratenko, Artem Sokolov, Nikolay Karpov, Oleg Kutuzov, Nikita Savushkin, Fyodor Minkin

초록
음성 정서 인식(Speech Emotion Recognition, SER) 작업을 위한 새로운 데이터셋인 Dusha를 제안한다. 이 코퍼스는 약 350시간 분량의 데이터를 포함하며, 러시아어 음성과 해당 음성의 전사본을 포함한 30만 건 이상의 오디오 녹음 파일을 보유하고 있다. 따라서 현재까지 공개된 SER 작업을 위한 가장 규모가 큰 이중 모달 데이터 컬렉션이다. 이 데이터셋은 커뮤니티 기반 플랫폼을 활용하여 레이블링되었으며, 연기된 음성(acted)과 실제 생활 음성(real-life) 두 가지 하위 집합으로 구성되어 있다. 연기된 음성 하위집합은 실제 생활 음성(오디오 팟캐스트로 구성됨)과 달리 클래스 분포가 더 균형 잡혀 있으며, 따라서 모델의 사전 훈련(pre-training)에 적합하다. 반면 실제 생활 음성 하위집합은 모델의 미세 조정(fine-tuning), 검증 및 평가에 적합하게 설계되었다. 본 논문에서는 Dusha 데이터셋을 활용한 사전 처리 절차, 레이블링 방식, 그리고 기준 모델(baseline model)을 이용한 실험을 통해 실제 얻을 수 있는 성능 지표를 제시한다.