초록
인간의 목소리 내에서 정서적 생물학적 지표(감정 생물학적 지표)를 찾는 것은 도전적인 연구 분야이다. 기존 연구들은 음성에서 정서 상태를 예측하는 데 초점을 맞추었으나, 본 연구는 정서적 음성 폭발(감정적 음성 폭발)에 대한 다양한 작업들을 탐구한다. 자가 supervision 학습이 음성 인식 분야에서 성공을 거둔 점을 참고하여, wav2vec 2.0의 변형 모델을 활용해 네 가지 정서적 음성 폭발 작업(고도, 두 가지, 문화, 유형)에 대한 음성 임베딩을 추출하였다. 모든 작업에 동일한 아키텍처를 적용한 결과, 음성 임베딩의 평가를 통해 기존의 음성 특징보다 wav2vec 2.0의 변형 모델이 정서적 음성 폭발 작업에서 더 유망한 가능성을 보였다. 다양한 수의 20개 시드(seed) 평가를 통해 기존 음성 특징과 음성 임베딩 모두를 평가하였으며, 검증 세트에서 최고 점수와 평균 점수 및 표준편차를 보고하였다. 모든 작업에 대해 검증 세트에서 도출된 세 가지 높은 점수는 테스트 세트의 예측 생성에 활용되었다. 테스트 세트의 성능을 이전 연구들과 비교한 결과, 뚜렷한 성능 향상이 관찰되었다.