
초록
인간의 비음성 발성(비음성 음성)을 인식하는 것은 자동 음성 전사 및 건강 상태 모니터링과 같은 다양한 응용 분야에서 중요한 과제이다. 그러나 기존 데이터셋은 발성 샘플 수가 상대적으로 적거나 레이블이 노이즈가 많은 경향이 있다. 이로 인해 최신의 음성 이벤트 분류 모델이 인간의 발성 음성을 탐지하는 데서 우수한 성능을 발휘하지 못할 수 있다. 보다 강건하고 정확한 발성 음성 인식 모델 개발을 지원하기 위해, 우리는 3,365명의 고유한 주체로부터 수집된 21,000건 이상의 웃음, 한숨, 기침, 목청 정리, 재채기, 코를 막는 소리 등의 음성 녹음을 포함하는 VocalSound 데이터셋을 구축하였다. 실험 결과, 기존 데이터셋에 VocalSound 데이터셋을 추가하여 학습 자료로 활용할 경우, 모델의 발성 음성 인식 성능이 평균 41.9% 향상됨을 확인하였다. 또한 기존 데이터셋과 달리, VocalSound 데이터셋은 발화자의 연령, 성별, 모국어, 국적, 건강 상태와 같은 메타 정보를 포함하고 있다.