Command Palette
Search for a command to run...
HiFiTTS-2: 대규모 고대역폭 음성 데이터셋
HiFiTTS-2: 대규모 고대역폭 음성 데이터셋
Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al
초록
이 논문에서는 고대역폭 음성 합성에 적합한 대규모 음성 데이터셋인 HiFiTTS-2를 소개한다. 이 데이터셋은 LibriVox 오디오북에서 유래하였으며, 22.05 kHz 학습을 위한 약 36.7천 시간의 영어 음성과 44.1 kHz 학습을 위한 약 31.7천 시간의 음성 데이터를 포함한다. 본 연구에서는 대역폭 추정, 음성 분할, 텍스트 전처리, 다중 발화자 탐지 등을 포함한 데이터 처리 파이프라인을 제시한다. 또한 본 파이프라인을 통해 생성된 발화 및 오디오북에 대한 상세한 메타데이터가 데이터셋과 함께 제공되며, 연구자들이 다양한 활용 사례에 맞게 데이터 품질 필터를 적용할 수 있도록 한다. 실험 결과, 제안하는 데이터 처리 파이프라인과 최종적으로 생성된 데이터셋이 고대역폭 환경에서 고품질의 제로샷 텍스트-투-음성(TTS) 모델 학습을 가능하게 함을 입증하였다.