웨넷스피치-유에: 다차원 주석을 갖춘 대규모 광둥어 음성 코퍼스

음성 이해 및 생성 기술의 발전은 대규모이고 고품질의 음성 데이터셋의 가용성으로 인해 크게 촉진되어 왔다. 이러한 데이터셋 중에서 음성 인식(ASR)과 음성 합성(TTS)은 가장 정립되어 있고 기초적인 과제로 평가되고 있다. 그러나 세계적으로 약 8,490만 명의 모국어 사용자가 있는 광둥어(유어 중국어)의 경우, 제한된 주석 자료로 인해 기술 발전이 저해되었으며, 결과적으로 ASR 및 TTS 성능이 최적화되지 못하고 있다. 이 문제를 해결하기 위해, 음성 이해 및 생성에 특화된 다차원 주석을 갖춘 대규모 음성 코퍼스 구축을 위한 통합 파이프라인인 WenetSpeech-Pipe를 제안한다. 이 파이프라인은 음성 수집, 화자 특성 주석, 음성 품질 주석, 음성 인식, 텍스트 후처리, 인식 결과 투표의 6개 모듈로 구성되어 있으며, 풍부하고 고품질의 주석을 가능하게 한다. 본 파이프라인을 기반으로, ASR 및 TTS를 위한 다차원 주석을 갖춘 최초의 대규모 광둥어 음성 코퍼스인 WenetSpeech-Yue를 공개한다. 이 데이터셋은 10개 도메인에 걸쳐 총 21,800시간의 음성 데이터를 포함하며, ASR 전사, 텍스트 신뢰도, 화자 정체성, 연령, 성별, 음성 품질 점수 등 다양한 주석 정보를 제공한다. 또한, 광둥어 평가를 위한 종합적인 벤치마크인 WSYue-eval도 함께 공개한다. 이 벤치마크는 두 가지 구성 요소로 이루어져 있다. 첫째, WSYue-ASR-eval은 짧고 긴 발화, 코드 스위칭, 다양한 음향 조건에서의 ASR 성능 평가를 위해 수작업으로 주석된 데이터셋이며, 둘째, WSYue-TTS-eval은 표준 테스트와 일반화 능력 평가를 위한 베이스 및 커버리지 서브셋을 포함한다. 실험 결과, WenetSpeech-Yue 데이터셋으로 학습된 모델이 상용 및 LLM 기반 모델을 포함한 최신 기술(SOTA) 광둥어 ASR 및 TTS 시스템과 경쟁 가능한 성능을 달성함으로써, 본 연구에서 제안하는 데이터셋과 파이프라인의 가치를 입증하였다.