17 天前
关注关键目标:基于端到端指标训练DNN-HMM关键词检测模型
Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel

摘要
基于深度神经网络-隐马尔可夫模型(DNN-HMM)的方法已被成功应用于多种始终在线的关键词唤醒检测算法中,用于识别唤醒词以触发设备响应。在该框架中,DNN负责预测给定语音帧的状态概率,而HMM解码器则将多个语音帧的DNN预测结果进行融合,从而计算出关键词检测得分。在以往的方法中,DNN的训练过程独立于HMM参数,旨在最小化预测状态概率与真实标签之间的交叉熵损失。然而,DNN训练所采用的损失函数(交叉熵)与最终评估指标(检测得分)之间的不匹配,是导致关键词唤醒任务性能次优的主要原因。为解决这一损失-指标不一致问题,本文提出一种新颖的端到端训练策略,通过直接优化检测得分来学习DNN参数。为此,我们使HMM解码器(基于动态规划)具备可微性,并通过反向传播机制对解码过程进行梯度传递,从而最大化关键词语音段的得分,同时最小化非关键词语音段的得分。该方法无需修改模型架构或推理框架,因此在运行时不会引入额外的内存开销或计算负担。实验结果表明,在保持相同误触发率(false trigger rate)的前提下,本方法显著降低了误拒绝率(false rejection rate),相比独立训练DNN的方法,性能提升超过70%。