
摘要
关键词检测(Keyword Spotting)是指计算机从录音语料中识别出特定词汇或短语的过程。深度神经网络算法作为强大的处理引擎,若在合适的训练数据集上进行训练,便能够有效解决此类问题。为此,本文通过众包方式构建了一个全新的波斯语关键词检测数据集——足球关键词数据集(Football Keyword Dataset, FKD)。该数据集共包含近31,000个样本,涵盖18个类别。为使FKD适用于实际连续语音场景,本文提出了一种连续语音合成方法,以增强数据集在真实应用中的可用性。此外,本文基于EfficientNet-B0模型,采用复合缩放(compound scaling)方法,提出了一种轻量级网络架构,命名为EfficientNet-A0(绝对零点),专用于关键词检测任务。最终,所提出的架构在多种模型上进行了评估。实验结果表明,在该数据集上,EfficientNet-A0与ResNet模型的性能优于其他对比模型。