Command Palette
Search for a command to run...
HiFiTTS-2 대규모 고대역폭 음성 데이터 세트
HiFiTTS-2는 NVIDIA가 2025년에 발표한 대규모 고대역폭 음성 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다. "HiFiTTS-2: 대규모 고대역폭 음성 데이터 세트"고품질의 제로샷 텍스트-음성(TTS) 모델의 훈련과 평가를 지원하도록 설계되었습니다.
이 데이터셋은 5,000명의 화자 오디오 메타데이터, 약 36,700시간 분량의 22.05kHz 영어 음성 녹음, 31,700시간 분량의 44.1kHz 영어 음성 녹음을 대역폭 품질 및 샘플링 레이트별로 계층화하여 제공합니다. 이 데이터는 LibriVox 오디오북에서 제공되며, LibriVox에서 다운로드할 수 있습니다. 48kHz로 샘플링되어 고해상도 보코더 및 비자기회귀 음성 합성 모델 학습에 적합합니다.
데이터에는 다음이 포함됩니다.
- 음성 오디오(22kHz/44kHz, 모노)
- 대본 및 장/에피소드 메타데이터
- 스피커 및 대역폭 품질 추정, 분할 타임스탬프
- 교육/검증 매니페스트 및 예시 구성