
摘要
近年来,基于三元组损失(triplet loss)的度量嵌入(metric embeddings)已成为解决多个重要计算机视觉任务的行业标准,尤其在行人重识别(person reidentification)领域表现突出。然而,在语音识别领域,即使面对分类任务,基于三元组损失生成的度量嵌入也极少被采用。本文填补了这一空白,通过结合两种表示学习技术——使用基于三元组损失的嵌入,并以一种改进的kNN分类方法替代传统的交叉熵损失(cross-entropy loss),显著提升了卷积神经网络在基于LibriSpeech构建的LibriWords数据集上的分类准确率,提升幅度达26%至38%。为实现这一目标,我们提出了一种新型的基于音素相似性的三元组挖掘方法(phonetic similarity-based triplet mining approach)。实验结果表明,该方法在Google Speech Commands数据集V1的10+2类分类任务中,将当前最优公开结果(SOTA)提升了约34%,准确率达到了98.55%;在V2的10+2类分类任务中提升了约20%,准确率达到98.37%;在V2的35类分类任务中更是提升了超过50%,准确率达到了97.0%。这些成果验证了度量嵌入与kNN分类结合在语音分类任务中的强大潜力。