
摘要
关键词识别(Keyword Spotting)是一个重要的研究领域,因其在智能设备的唤醒机制与用户交互中发挥着关键作用。然而,在资源受限的设备(如智能手机)上实现高效运行的同时最大限度地降低误识率,仍面临巨大挑战。为此,本文提出一种广播式残差学习方法,可在保持极小模型规模和低计算负载的前提下实现高精度识别。该方法将大部分残差函数设计为一维时间卷积,同时通过一种广播式残差连接(broadcasted-residual connection),将时间维度的输出扩展至频时维度,从而支持二维卷积的融合使用。这种残差映射机制使网络能够以远低于传统卷积神经网络的计算开销,有效捕捉关键音频特征。此外,本文提出一种新型网络架构——广播式残差网络(Broadcasting-Residual Network, BC-ResNet),基于上述广播式残差学习思想,并阐述了如何根据目标设备的资源情况对模型进行灵活扩展。实验结果表明,BC-ResNet在Google语音命令数据集v1和v2上分别取得了98.0%和98.7%的Top-1准确率,达到当前最优水平,且在计算量和参数量显著减少的前提下,持续优于以往方法。相关代码已开源,地址为:https://github.com/Qualcomm-AI-research/bcresnet。