17 天前
HEiMDaL:一种高效的话音唤醒词检测与定位方法
Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik

摘要
流式关键词检测是激活语音助手的一种广泛应用方案。基于深度神经网络与隐马尔可夫模型(DNN-HMM)的混合方法在该领域已被证明高效且广泛采用,主要得益于其能够在计算开销较低的情况下准确检测并识别唤醒词的起始与结束位置。然而,这类混合系统在DNN与HMM独立训练时,容易出现损失函数不匹配的问题。尽管序列判别性训练可在一定程度上缓解该问题,但由于其固有的马尔可夫式运算机制,仍难以完全消除损失函数的不一致。为此,本文提出一种轻量级卷积神经网络模型——HEiMDaL,用于在流式环境下实现关键词的检测与定位。该模型引入一种基于对齐的分类损失函数,用于判断关键词是否出现,同时结合偏移损失函数,以预测关键词的起始位置。实验结果表明,HEiMDaL在保持与现有DNN-HMM模型相当的定位精度的前提下,将检测指标降低了73%,且内存占用与现有DNN-HMM模型保持一致,适用于给定唤醒词的实时应用场景。