2 个月前

双知识蒸馏用于高效的声学事件检测

Xiao, Yang ; Das, Rohan Kumar
双知识蒸馏用于高效的声学事件检测
摘要

声事件检测(SED)对于识别声学信号中特定声音及其时间位置至关重要。特别是在设备端应用中,计算资源有限,这一任务变得尤为具有挑战性。为了解决这一问题,本文提出了一种新颖的框架,称为双知识蒸馏(Dual Knowledge Distillation),用于开发高效的SED系统。我们提出的双知识蒸馏方法首先采用时间平均知识蒸馏(Temporal-Averaging Knowledge Distillation, TAKD),通过学生模型参数的时间平均生成一个均值学生模型。这使得学生模型能够间接从预训练的教师模型中学习,确保了稳定的知识蒸馏过程。随后,我们引入了嵌入增强特征蒸馏(Embedding-Enhanced Feature Distillation, EEFD),即在学生模型中加入一个嵌入蒸馏层,以加强上下文学习能力。在DCASE 2023 Task 4A公开评估数据集上,我们提出的采用双知识蒸馏的SED系统仅使用基线模型参数量的三分之一,却在PSDS1和PSDS2指标上表现出优越性能。这突显了所提出的双知识蒸馏方法对紧凑型SED系统的重要性,使其特别适合边缘设备的应用。