17일 전

GigaSpeech: 10,000시간의 음성 데이터를 보유한 진화적이고 다중 도메인 ASR 코퍼스

Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan

논문 세부 정보 보기

GigaSpeech: 10,000시간의 음성 데이터를 보유한 진화적이고 다중 도메인 ASR 코퍼스

초록

이 논문은 10,000시간의 고품질 레이블링된 음성 데이터를 포함하여 지도학습에 적합한 다영역 영어 음성 인식 코퍼스인 GigaSpeech를 소개한다. 총 40,000시간의 음성 데이터는 반지도학습 및 비지도학습에 활용 가능하다. 약 40,000시간의 음성 데이터는 오디오북, 팟캐스트, 유튜브 등에서 수집되었으며, 독백 및 자연스러운 말하기 스타일을 모두 포함하고 있으며, 예술, 과학, 스포츠 등 다양한 주제를 다룬다. 음성 인식 학습에 적합한 문장 단위의 분할을 위해 새로운 강제 정렬( forced alignment) 및 세그멘테이션 파이프라인을 제안하였으며, 저품질의 전사 결과를 제거하는 데에도 활용한다. 시스템 학습을 위해 GigaSpeech는 10시간, 250시간, 1,000시간, 2,500시간, 10,000시간의 다양한 크기의 다섯 가지 하위 집합을 제공한다. 10,000시간의 XL 학습 세트의 경우 필터링 및 검증 단계에서 단어 오류율(Word Error Rate, WER)을 4% 이하로 제한하였고, 다른 모든 보다 작은 학습 세트는 WER를 0%로 제한하였다. 반면, 검증(DEV) 및 테스트(TEST) 평가 세트는 전문 인력이 다시 전사하여 높은 전사 품질을 보장하였다. 또한, 대표적인 음성 인식 툴킷인 Athena, ESPnet, Kaldi, Pika에 대한 베이스라인 시스템도 함께 제공된다.