2 个月前
用于移动设备实时关键词检测的时间卷积
Seungwoo Choi; Seokjun Seo; Beomjun Shin; Hyeongmin Byun; Martin Kersner; Beomsu Kim; Dongyoung Kim; Sungjoo Ha

摘要
关键词检测(KWS)在智能设备上实现基于语音的用户交互方面发挥着关键作用。近年来,深度学习领域的进展使得卷积神经网络(CNNs)因其卓越的准确性和鲁棒性而在KWS系统中得到广泛应用。KWS系统面临的主要挑战是在高准确率和低延迟之间的权衡。不幸的是,目前对于移动设备上KWS模型的实际延迟缺乏定量分析。这尤其令人担忧,因为传统的基于卷积的KWS方法已知需要大量运算才能达到足够的性能水平。本文提出了一种用于移动设备实时KWS的时间卷积方法。与大多数需要深层架构以完全捕捉低频和高频域的二维卷积基KWS方法不同,我们利用了时间卷积与紧凑的ResNet架构。在Google语音命令数据集上,我们的方法在Google Pixel 1设备上的速度提高了超过385倍,并且超越了现有最先进模型的准确率。此外,我们发布了所提出的模型和基准模型的实现代码,包括一个端到端的管道,用于训练模型并在移动设备上进行评估。