17일 전
Libri-Light: 제한된 또는 무 supervision을 갖는 ASR을 위한 벤치마크
Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux

초록
저희는 제한된 또는 무감독 환경에서 음성 인식 시스템을 훈련하기에 적합한 새로운 구술 영어 오디오 컬렉션을 소개합니다. 이 데이터셋은 LibriVox 프로젝트의 오픈소스 오디오 북에서 유래되었으며, 총 6만 시간 이상의 오디오를 포함하고 있습니다. 저희 지식상으로는 현재까지 공개된 최대 규모의 음성 데이터베이스입니다. 해당 오디오는 음성 활동 탐지(Voice Activity Detection)를 통해 분할되었으며, SNR, 화자 ID, 장르 정보 등의 태그가 부여되었습니다. 또한, 세 가지 설정에서 작동하는 기준 모델 및 평가 지표를 제공합니다. 첫 번째는 제로 리소스/무감독 설정(ABX), 두 번째는 반감독 설정(PER, CER), 세 번째는 원격 감독 설정(WER)입니다. 두 번째와 세 번째 설정은 음성과 정렬된 제한된 텍스트 리소스(10분에서 10시간)를 사용하며, 세 번째 설정은 정렬되지 않은 대량의 텍스트를 활용합니다. 이들 설정은 표준 LibriSpeech 개발 및 테스트 세트에서 평가되어 감독 학습 기반 최신 기술과의 비교가 가능하도록 구성되었습니다.