Command Palette

Search for a command to run...

HiFiTTS-2 大规模高带宽语音数据集

日期

3 个月前

机构

NVIDIA(英伟达)

论文链接

2506.04152

许可协议

CC BY 4.0

加入 Discord 社区

HiFiTTS-2 是由英伟达于 2025 年发布的一个大规模高带宽语音数据集,相关论文成果为 「HiFiTTS-2: A Large-Scale High Bandwidth Speech Dataset」,旨在支持高质量零样本文本转语音(TTS)模型的训练与评测。

该数据集包含来自 5k 名说话人的音频元数据,约 36,700 小时(22.05 kHz)与 31,700 小时(44.1 kHz)的英文语音录音,并按带宽质量与采样率进行分层组织。数据源自 LibriVox 有声读物,可从 LibriVox 下载,采样率为 48 kHz,适用于高分辨率声码器与非自回归语音合成模型训练。

数据包含:

  • 语音音频(22 kHz / 44 kHz,单声道)
  • 文本转录与章节/片段元数据
  • 说话人与带宽质量估计、分割时间戳
  • 训练/验证清单与示例配置

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供