HyperAIHyperAI

Command Palette

Search for a command to run...

基于有限且合成语音数据训练关键词检测器

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

摘要

随着低功耗语音唤醒设备的兴起,快速构建能够识别任意关键词集合的模型需求日益增长。与许多机器学习任务类似,模型构建过程中最具挑战性的环节之一,便是获取足够数量的训练数据。本文探讨了合成语音数据在训练小型语音关键词检测模型(参数量约为40万)中的有效性。与直接在音频信号或低级特征(如MFCCs)上训练模型的传统方法不同,我们采用了一个预先训练好的语音嵌入模型,该模型旨在提取对关键词检测任务具有判别性的特征。实验结果表明,仅使用合成语音数据进行训练,所构建的模型在检测10个关键词时,其性能可达到在超过500个真实语音样本上训练的模型水平;而若不使用该语音嵌入特征,模型则需在超过4000个真实样本上训练才能达到相同的识别准确率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供