HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2: 대규모 고대역폭 음성 데이터셋

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

초록

이 논문에서는 고대역폭 음성 합성에 적합한 대규모 음성 데이터셋인 HiFiTTS-2를 소개한다. 이 데이터셋은 LibriVox 오디오북에서 유래하였으며, 22.05 kHz 학습을 위한 약 36.7천 시간의 영어 음성과 44.1 kHz 학습을 위한 약 31.7천 시간의 음성 데이터를 포함한다. 본 연구에서는 대역폭 추정, 음성 분할, 텍스트 전처리, 다중 발화자 탐지 등을 포함한 데이터 처리 파이프라인을 제시한다. 또한 본 파이프라인을 통해 생성된 발화 및 오디오북에 대한 상세한 메타데이터가 데이터셋과 함께 제공되며, 연구자들이 다양한 활용 사례에 맞게 데이터 품질 필터를 적용할 수 있도록 한다. 실험 결과, 제안하는 데이터 처리 파이프라인과 최종적으로 생성된 데이터셋이 고대역폭 환경에서 고품질의 제로샷 텍스트-투-음성(TTS) 모델 학습을 가능하게 함을 입증하였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
HiFiTTS-2: 대규모 고대역폭 음성 데이터셋 | 문서 | HyperAI초신경