HyperAIHyperAI

Command Palette

Search for a command to run...

基于三元组损失的关键词识别高效表示学习

Roman Vygon Nikolay Mikhaylovskiy

摘要

近年来,基于三元组损失(triplet loss)的度量嵌入(metric embeddings)已成为解决多个重要计算机视觉任务的行业标准,尤其在行人重识别(person reidentification)领域表现突出。然而,在语音识别领域,即使面对分类任务,基于三元组损失生成的度量嵌入也极少被采用。本文填补了这一空白,通过结合两种表示学习技术——使用基于三元组损失的嵌入,并以一种改进的kNN分类方法替代传统的交叉熵损失(cross-entropy loss),显著提升了卷积神经网络在基于LibriSpeech构建的LibriWords数据集上的分类准确率,提升幅度达26%至38%。为实现这一目标,我们提出了一种新型的基于音素相似性的三元组挖掘方法(phonetic similarity-based triplet mining approach)。实验结果表明,该方法在Google Speech Commands数据集V1的10+2类分类任务中,将当前最优公开结果(SOTA)提升了约34%,准确率达到了98.55%;在V2的10+2类分类任务中提升了约20%,准确率达到98.37%;在V2的35类分类任务中更是提升了超过50%,准确率达到了97.0%。这些成果验证了度量嵌入与kNN分类结合在语音分类任务中的强大潜力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供