摘要
在智能边缘设备上,本地化关键词识别(On-device Keyword Spotting, KWS)是实现唤醒功能与用户交互的关键组件。现有的轻量级模型主要基于一维(1D)和二维(2D)卷积神经网络,其中2D卷积在捕捉特征不变性方面表现更优,而1D卷积则能实现更快的推理速度。本文探索了四元数神经网络(Quaternion Neural Models)作为KWS任务中高效声学建模的一种替代方案。四元数模型能够将输入特征的多个维度嵌入四元数空间中,从而在保持性能的同时,显著减小模型规模并提升效率。我们在Google Command V2数据集上验证了这一方法,通过构建主流KWS模型的四元数版本,结果表明其性能可与现有模型相媲美。此外,本文还对四元数网络的学习行为进行了深入分析,进一步论证了其在其他语音与音频任务中的应用潜力。