8 个月前

音频和语音处理

计算机视觉

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng

摘要

本文介绍了WenetSpeech，这是一个多领域的普通话语料库，包含超过10000小时的高质量标注语音、2400多小时的弱标注语音以及约10000小时的未标注语音，总计22400多小时。我们从YouTube和播客中收集了这些数据，涵盖了多种说话风格、场景、领域、话题和噪声条件。对于YouTube数据，我们引入了一种基于光学字符识别（OCR）的方法来生成与其对应的视频字幕相关的音频/文本分割候选；而对于播客数据，则使用了一个高质量的自动语音识别（ASR）转录系统来生成音频/文本对候选。随后，我们提出了一种新颖的端到端标签错误检测方法，以进一步验证和筛选这些候选。此外，我们还提供了三个手动标注的高质量测试集，与WenetSpeech一起用于评估——Dev用于训练中的交叉验证，Test_Net从互联网收集用于匹配测试，Test_Meeting则记录自真实会议，用于更具挑战性的不匹配测试。我们为三个流行的语音识别工具包Kaldi、ESPnet和WeNet提供了基于WenetSpeech训练的基线系统，并在三个测试集上提供了识别结果作为基准。据我们所知，WenetSpeech是目前最大的带有转录的开源普通话语音语料库，这将有助于生产级语音识别的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

计算机视觉

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng

摘要

本文介绍了WenetSpeech，这是一个多领域的普通话语料库，包含超过10000小时的高质量标注语音、2400多小时的弱标注语音以及约10000小时的未标注语音，总计22400多小时。我们从YouTube和播客中收集了这些数据，涵盖了多种说话风格、场景、领域、话题和噪声条件。对于YouTube数据，我们引入了一种基于光学字符识别（OCR）的方法来生成与其对应的视频字幕相关的音频/文本分割候选；而对于播客数据，则使用了一个高质量的自动语音识别（ASR）转录系统来生成音频/文本对候选。随后，我们提出了一种新颖的端到端标签错误检测方法，以进一步验证和筛选这些候选。此外，我们还提供了三个手动标注的高质量测试集，与WenetSpeech一起用于评估——Dev用于训练中的交叉验证，Test_Net从互联网收集用于匹配测试，Test_Meeting则记录自真实会议，用于更具挑战性的不匹配测试。我们为三个流行的语音识别工具包Kaldi、ESPnet和WeNet提供了基于WenetSpeech训练的基线系统，并在三个测试集上提供了识别结果作为基准。据我们所知，WenetSpeech是目前最大的带有转录的开源普通话语音语料库，这将有助于生产级语音识别的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供