6 个月前

摘要

近年来，基于三元组损失（triplet loss）的度量嵌入（metric embeddings）已成为解决多个重要计算机视觉任务的行业标准，尤其在行人重识别（person reidentification）领域表现突出。然而，在语音识别领域，即使面对分类任务，基于三元组损失生成的度量嵌入也极少被采用。本文填补了这一空白，通过结合两种表示学习技术——使用基于三元组损失的嵌入，并以一种改进的kNN分类方法替代传统的交叉熵损失（cross-entropy loss），显著提升了卷积神经网络在基于LibriSpeech构建的LibriWords数据集上的分类准确率，提升幅度达26%至38%。为实现这一目标，我们提出了一种新型的基于音素相似性的三元组挖掘方法（phonetic similarity-based triplet mining approach）。实验结果表明，该方法在Google Speech Commands数据集V1的10+2类分类任务中，将当前最优公开结果（SOTA）提升了约34%，准确率达到了98.55%；在V2的10+2类分类任务中提升了约20%，准确率达到98.37%；在V2的35类分类任务中更是提升了超过50%，准确率达到了97.0%。这些成果验证了度量嵌入与kNN分类结合在语音分类任务中的强大潜力。

源 PDF