초록
이 논문은 말하는 언어 식별(task of spoken language recognition)을 위한 자동으로 수집된 웹 오디오 데이터의 활용을 조사한다. 우리는 107개 언어에 대해 언어별 위키백과 데이터에서 반무작위 검색어를 생성한 후, 이를 이용해 유튜브에서 동영상을 검색한다. 음성 활동 탐지(speech activity detection)와 화자 분리(speaker diarization) 기법을 활용해 동영상에서 음성이 포함된 구간을 추출한다. 이후 후처리 필터링(post-filtering)을 통해 해당 언어에 해당하지 않을 가능성이 높은 구간을 데이터베이스에서 제거함으로써, 인력 기반 검증(crowd-sourced verification) 기준으로 올바르게 레이블링된 구간의 비율을 98%까지 높였다. 최종적으로 생성된 학습 데이터셋(VoxLingua107)의 크기는 총 6,628시간(평균 각 언어당 62시간)이며, 검증된 1,609개의 발화문을 포함한 평가용 데이터셋도 함께 제공된다. 이 데이터를 활용해 여러 말하는 언어 식별 작업에 적합한 언어 식별 모델을 구축하였다. 실험 결과, 수동으로 레이블링된 기업 내부 데이터셋을 사용했을 때와 비교해도 자동으로 수집된 학습 데이터를 활용했을 때 경쟁력 있는 성능을 나타냈다. 본 데이터셋은 공개적으로 제공된다.