7 个月前

音频和语音处理

Tanel Alumae Jorgen Valk

摘要

本文研究了利用自动收集的网络音频数据进行语音语言识别任务的可行性。我们基于107种语言的特定维基百科数据生成半随机搜索关键词，并以此从YouTube平台检索相关视频。通过语音活动检测（Speech Activity Detection）与说话人分离（Speaker Diarization）技术，从视频中提取出包含语音的片段。随后采用后处理过滤机制，剔除那些极可能不属于目标语言的片段，经众包验证后，正确标注片段的比例提升至98%。由此构建的训练数据集（VoxLingua107）总时长达6628小时，平均每种语言约62小时，同时配套提供包含1609个经验证语音片段的评估集。我们利用该数据集构建了多种语音语言识别模型，针对不同的口语语言识别任务进行了实验。结果表明，使用自动获取的训练数据所取得的性能，可与使用人工标注的专有数据集相媲美。该数据集已对公众开放。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

Tanel Alumae Jorgen Valk

摘要

本文研究了利用自动收集的网络音频数据进行语音语言识别任务的可行性。我们基于107种语言的特定维基百科数据生成半随机搜索关键词，并以此从YouTube平台检索相关视频。通过语音活动检测（Speech Activity Detection）与说话人分离（Speaker Diarization）技术，从视频中提取出包含语音的片段。随后采用后处理过滤机制，剔除那些极可能不属于目标语言的片段，经众包验证后，正确标注片段的比例提升至98%。由此构建的训练数据集（VoxLingua107）总时长达6628小时，平均每种语言约62小时，同时配套提供包含1609个经验证语音片段的评估集。我们利用该数据集构建了多种语音语言识别模型，针对不同的口语语言识别任务进行了实验。结果表明，使用自动获取的训练数据所取得的性能，可与使用人工标注的专有数据集相媲美。该数据集已对公众开放。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供