
摘要
本文提出了一种神经架构搜索(Neural Architecture Search, NAS)方法,用于在资源受限环境下自动发现端到端关键词识别(Keyword Spotting, KWS)模型。我们采用可微分NAS方法,对作用于原始音频波形的卷积神经网络(Convolutional Neural Networks, CNNs)结构进行优化。在通过NAS搜索到合适的KWS模型后,进一步对模型的权重和激活值进行量化,以降低内存占用。我们在Google语音命令数据集上开展了大量实验,特别将所提出的端到端方法与基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)的系统进行了对比。在量化策略方面,比较了固定位宽量化与训练型位宽量化两种方法。仅使用NAS技术,我们获得了一个高效模型,参数量仅为75.7k,计算量为13.6M,准确率达到95.55%。在采用训练型位宽量化后,相同模型在测试集上的准确率降至93.76%,但平均每个激活值仅需2.91位,每个权重仅需2.51位,显著降低了模型的存储与计算开销。