2달 전

WenetSpeech: 음성 인식을 위한 10000시간 이상의 다중 영역 중문 말뭉치

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng
WenetSpeech: 음성 인식을 위한 10000시간 이상의 다중 영역 중문 말뭉치
초록

본 논문에서는 WenetSpeech를 소개합니다. WenetSpeech는 10,000시간 이상의 고품질 라벨링된 음성, 2,400시간 이상의 약간 라벨링된 음성, 그리고 약 10,000시간의 비라벨링된 음성을 포함하여 총 22,400시간 이상으로 구성된 다중 영역의 표준 중국어 말뭉치입니다. 우리는 YouTube와 Podcast에서 데이터를 수집하여 다양한 발화 스타일, 시나리오, 영역, 주제 및 노이즈 조건을 포함하도록 하였습니다. YouTube 데이터에 대해서는 해당 동영상 자막을 기반으로 하는 광학 문자 인식(OCR) 기반 방법을 도입하여 오디오/텍스트 분할 후보를 생성하였으며, Podcast 데이터에 대해서는 고품질 음성 인식(ASR) 전사 시스템을 사용하여 오디오/텍스트 쌍 후보를 생성하였습니다. 또한 새로운 엔드투엔드 라벨 오류 검출 접근법을 제안하여 후보들을 더욱 검증하고 필터링하였습니다.WenetSpeech와 함께 평가 목적으로 세 개의 수작업으로 라벨링된 고품질 테스트셋도 제공합니다. Dev는 훈련 과정에서 크로스 밸리데이션 용도로 사용되며, Test_Net은 인터넷에서 수집한 매칭 테스트용이며, Test_Meeting은 실제 회의에서 녹음한 더 어려운 미매칭 테스트용입니다. 또한 WenetSpeech로 훈련된 베이스라인 시스템을 Kaldi, ESPnet, WeNet 등 세 가지 인기 있는 음성 인식 도구킷에 대해 제공하며, 이 세 개의 테스트셋에서의 인식 결과도 벤치마크로 제공됩니다.우리가 아는 한 WenetSpeech는 현재까지 전사가 포함된 가장 큰 오픈 소스 표준 중국어 말뭉치로서 생산 수준의 음성 인식 연구에 크게 기여할 것입니다.