日期

10 个月前

大小

1.46 GB

数据集组织

论文 URL

2509.03959

许可证

Non-Commercial

标签

音频和语音处理

音频识别

合成

WenetSpeech Yue 是由西北工业大学联合中国电信人工智能研究院、北京希尔贝壳科技有限公司等机构于 2025 年发布的一个用于粤语语音识别（ASR）与文本到语音合成（TTS）的多维注释大型语音语料库，相关论文成果为「WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation」，旨在填补粤语领域资源匮乏的空白，推动高质量粤语模型的训练与评估。该数据集包含约 21,800 小时粤语录音，覆盖 10 个语域，包括：讲故事、娱乐、戏剧、文化、 Vlog 、评论、教育、播客、新闻和其他，适用于粤语自动语音识别（ASR）和文本到语音合成（TTS）模型的训练与评测以及处理真实语言场景中的多样语域和说话风格，同时支持跨域泛化能力的验证与评估。

数据构成：

转录文本：自动语音识别结果；
置信度分数：如文本置信度、粤语拼音置信度；
说话人属性：性别、年龄、说话人 ID；
语音质量指标：如 SNR 、 DNSMOS；
时间标注：时长、字符级时间戳；
扩展元数据：节目名称、地域、链接及语域信息。

WenetSpeech-Yue.torrent

做种 2正在下载 0已完成 64总下载量 238

WenetSpeech-Yue/
- README.md
  2.12 KB
- README.txt
  4.23 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

10 个月前

大小

1.46 GB

数据集组织

论文 URL

2509.03959

许可证

Non-Commercial

标签

音频和语音处理

音频识别

合成

数据构成：

转录文本：自动语音识别结果；
置信度分数：如文本置信度、粤语拼音置信度；
说话人属性：性别、年龄、说话人 ID；
语音质量指标：如 SNR 、 DNSMOS；
时间标注：时长、字符级时间戳；
扩展元数据：节目名称、地域、链接及语域信息。

WenetSpeech-Yue.torrent

做种 2正在下载 0已完成 64总下载量 238

WenetSpeech-Yue/
- README.md
  2.12 KB
- README.txt
  4.23 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

THINGS-EEG 脑电图数据集

5 个月前

THINGS-MEG 脑磁图数据集

5 个月前

THINGS-fMRI 功能磁共振成像数据集

5 个月前

Nemotron-Math-v2 数学推理数据集

5 个月前

GroundingME 复杂场景理解评测数据集

5 个月前

MCD-rPPG 多摄像头远程光体积描记数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

数据构成：

用 AI 构建 AI

HyperAI Newsletters

数据构成：

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

用 AI 构建 AI

HyperAI Newsletters

数据构成：

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

Command Palette

WenetSpeech Yue 粤语语料数据集

数据构成：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WenetSpeech Yue 粤语语料数据集

数据构成：

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WenetSpeech Yue 粤语语料数据集

数据构成：

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集

相关数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

MCD-rPPG 多摄像头远程光体积描记数据集