17일 전

Libri-Light: 제한된 또는 무 supervision을 갖는 ASR을 위한 벤치마크

Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux
Libri-Light: 제한된 또는 무 supervision을 갖는 ASR을 위한 벤치마크
초록

저희는 제한된 또는 무감독 환경에서 음성 인식 시스템을 훈련하기에 적합한 새로운 구술 영어 오디오 컬렉션을 소개합니다. 이 데이터셋은 LibriVox 프로젝트의 오픈소스 오디오 북에서 유래되었으며, 총 6만 시간 이상의 오디오를 포함하고 있습니다. 저희 지식상으로는 현재까지 공개된 최대 규모의 음성 데이터베이스입니다. 해당 오디오는 음성 활동 탐지(Voice Activity Detection)를 통해 분할되었으며, SNR, 화자 ID, 장르 정보 등의 태그가 부여되었습니다. 또한, 세 가지 설정에서 작동하는 기준 모델 및 평가 지표를 제공합니다. 첫 번째는 제로 리소스/무감독 설정(ABX), 두 번째는 반감독 설정(PER, CER), 세 번째는 원격 감독 설정(WER)입니다. 두 번째와 세 번째 설정은 음성과 정렬된 제한된 텍스트 리소스(10분에서 10시간)를 사용하며, 세 번째 설정은 정렬되지 않은 대량의 텍스트를 활용합니다. 이들 설정은 표준 LibriSpeech 개발 및 테스트 세트에서 평가되어 감독 학습 기반 최신 기술과의 비교가 가능하도록 구성되었습니다.