Command Palette

Search for a command to run...

HiFiTTS-2 대규모 고대역폭 음성 데이터 세트

날짜

3달 전

기관

엔비디아

논문 URL

2506.04152

라이선스

CC BY 4.0

Discord 커뮤니티 참여

HiFiTTS-2는 NVIDIA가 2025년에 발표한 대규모 고대역폭 음성 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다. "HiFiTTS-2: 대규모 고대역폭 음성 데이터 세트"고품질의 제로샷 텍스트-음성(TTS) 모델의 훈련과 평가를 지원하도록 설계되었습니다.

이 데이터셋은 5,000명의 화자 오디오 메타데이터, 약 36,700시간 분량의 22.05kHz 영어 음성 녹음, 31,700시간 분량의 44.1kHz 영어 음성 녹음을 대역폭 품질 및 샘플링 레이트별로 계층화하여 제공합니다. 이 데이터는 LibriVox 오디오북에서 제공되며, LibriVox에서 다운로드할 수 있습니다. 48kHz로 샘플링되어 고해상도 보코더 및 비자기회귀 음성 합성 모델 학습에 적합합니다.

데이터에는 다음이 포함됩니다.

  • 음성 오디오(22kHz/44kHz, 모노)
  • 대본 및 장/에피소드 메타데이터
  • 스피커 및 대역폭 품질 추정, 분할 타임스탬프
  • 교육/검증 매니페스트 및 예시 구성

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp