8 个月前

音频和语音处理

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

摘要

随着低功耗语音唤醒设备的兴起，快速构建能够识别任意关键词集合的模型需求日益增长。与许多机器学习任务类似，模型构建过程中最具挑战性的环节之一，便是获取足够数量的训练数据。本文探讨了合成语音数据在训练小型语音关键词检测模型（参数量约为40万）中的有效性。与直接在音频信号或低级特征（如MFCCs）上训练模型的传统方法不同，我们采用了一个预先训练好的语音嵌入模型，该模型旨在提取对关键词检测任务具有判别性的特征。实验结果表明，仅使用合成语音数据进行训练，所构建的模型在检测10个关键词时，其性能可达到在超过500个真实语音样本上训练的模型水平；而若不使用该语音嵌入特征，模型则需在超过4000个真实样本上训练才能达到相同的识别准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

摘要

随着低功耗语音唤醒设备的兴起，快速构建能够识别任意关键词集合的模型需求日益增长。与许多机器学习任务类似，模型构建过程中最具挑战性的环节之一，便是获取足够数量的训练数据。本文探讨了合成语音数据在训练小型语音关键词检测模型（参数量约为40万）中的有效性。与直接在音频信号或低级特征（如MFCCs）上训练模型的传统方法不同，我们采用了一个预先训练好的语音嵌入模型，该模型旨在提取对关键词检测任务具有判别性的特征。实验结果表明，仅使用合成语音数据进行训练，所构建的模型在检测10个关键词时，其性能可达到在超过500个真实语音样本上训练的模型水平；而若不使用该语音嵌入特征，模型则需在超过4000个真实样本上训练才能达到相同的识别准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供