
摘要
关键词检测(KWS)是实现智能设备基于语音的用户交互的关键组件。为了提供良好的用户体验,它需要实现实时响应和高精度。近年来,由于神经网络在准确性方面优于传统的语音处理算法,因此成为KWS架构的一个有吸引力的选择。由于KWS应用具有始终开启的特性,其功耗预算受到严格限制,通常运行在内存和计算能力有限的微控制器上。设计用于KWS的神经网络架构必须考虑这些约束条件。在这项工作中,我们对在资源受限的微控制器上运行KWS的神经网络架构进行了评估和探索。我们训练了文献中发表的各种神经网络架构,以比较它们的准确性和内存/计算需求。研究表明,可以在不牺牲准确性的前提下优化这些神经网络架构,使其适应微控制器的内存和计算约束。我们进一步探讨了深度可分离卷积神经网络(DS-CNN),并将其与其他神经网络架构进行对比。DS-CNN实现了95.4%的准确性,比参数数量相似的DNN模型高出约10%。