摘要
关键词检测(Keyword Spotting, KWS)是智能终端设备与服务机器人中人机交互的关键组成部分,其目标是在保持模型轻量化的同时最大化检测准确率。本文基于DenseNet在提取局部特征图方面的强大能力,提出了一种新的网络架构——DenseNet-BiLSTM,用于KWS任务。在所提出的DenseNet-BiLSTM中,DenseNet主要用于提取局部特征,而双向长短期记忆网络(BiLSTM)则用于捕捉语音信号的时间序列特征。通常情况下,DenseNet被广泛应用于计算机视觉任务,但在处理语音音频时,其原有的下采样操作可能破坏语音的时间上下文信息。为使DenseNet适用于KWS任务,本文提出一种改进型结构——DenseNet-Speech,该结构在过渡层中移除了时间维度上的池化操作,以有效保留语音信号的时间序列特性。此外,DenseNet-Speech通过减少密集块数量和卷积核数量,进一步压缩模型规模,从而降低移动设备上的计算开销。实验结果表明,DenseNet-Speech提取的特征图能够较好地保持语音的时间序列信息。在Google Speech Commands数据集上的对比实验显示,所提方法在准确率方面优于当前最先进的技术。DenseNet-BiLSTM在20类关键词识别任务中达到了96.6%的识别准确率,且仅包含22.3万个可训练参数,具有良好的实时性与部署潜力。