17일 전
VoxPopuli: 표현 학습, 반감독 학습 및 해석을 위한 대규모 다국어 음성 코퍼스
Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux

초록
우리는 23개 언어로 구성된 10만 시간 분량의 레이블이 없는 음성 데이터를 제공하는 대규모 다국어 코퍼스인 VoxPopuli를 소개한다. 이는 비감독 표현 학습 및 반감독 학습을 위한 현재까지 공개된 최대 규모의 데이터셋이다. VoxPopuli는 16개 언어로 작성된 1,800시간의 음성 데이터와 이를 5개 언어로 번역한 구두 해석 데이터(총 5,100시간)를 포함하고 있다. 우리는 도메인 외부의 도전적인 환경에서도 반감독 학습에서 VoxPopuli의 레이블 없는 데이터의 유용성을 검증하기 위해 음성 인식 기준 성능을 제시한다. 본 코퍼스는 https://github.com/facebookresearch/voxpopuli에서 오픈 라이선스 하에 공개될 예정이다.