CrowdSpeech와 VoxDIY: 크라우드소싱 오디오 전사 벤치마크 데이터셋

영역별 데이터는 기계 학습 시스템이 벤치마크에서 실제 생활로 성공적으로 이전되는 데 있어 핵심적인 역할을 합니다. 이미지 분류와 같은 간단한 문제에서는 크라우드소싱이 저렴하고 시간 효율적인 데이터 수집 도구 중 하나가 되었습니다. 이는 주로 집합 방법에 대한 연구의 발전 덕분입니다. 그러나, 이러한 모달리티(모드)에 대한 원칙적인 집합 방법의 부족으로 인해 더 복잡한 작업(예: 음성 인식)에 크라우드소싱의 적용은 여전히 제한적입니다. 고급 응용 프로그램을 위한 집합 방법 설계의 주요 장애물은 훈련 데이터의 부재입니다. 본 연구에서는 이 격차를 메우기 위해 음성 인식에 초점을 맞추고 있습니다. 이를 위해 우리는 크라우드소싱 오디오 전사 데이터셋인 CrowdSpeech를 수집하여 공개합니다. CrowdSpeech는 처음으로 대규모로 공개된 크라우드소싱 오디오 전사 데이터셋입니다.기존 및 새로운 집합 방법을 우리의 데이터에 평가한 결과, 개선 여지가 있음을 보여주며, 이는 우리 연구가 더 나은 알고리즘 설계를 포함할 수 있음을 시사합니다. 더욱 일반적으로, 우리는 크라우드소싱을 통해 신뢰할 수 있는 데이터 수집 방법론을 개발하는 데에도 기여하고자 합니다. 이를 위해 우리는 어떤 새로운 영역에서도 크라우드소싱 오디오 전사 데이터셋을 구성하기 위한 원칙적인 파이프라인을 설계하였습니다. 우리는 이 파이프라인의 적용 가능성을 언더 리소스 언어(under-resourced language)를 통해 입증하였으며, 이를 통해 러시아어 버전의 CrowdSpeech인 VoxDIY를 구축하였습니다.또한, 우리의 데이터 수집 파이프라인을 완전히 재현할 수 있는 코드를 공개하며, 크라우드소싱을 통한 최상의 데이터 수집 관행에 관한 다양한 통찰력을 공유합니다.