
摘要
在移动设备计算资源受限的背景下,提升本地音频分类模型的性能仍是一项挑战。现有许多研究采用知识蒸馏技术,通过将大型模型的知识迁移至轻量级设备模型,以增强其预测性能。然而,大多数方法缺乏有效机制来提取并蒸馏时间信息的本质特征——而这一特征对于音频分类任务至关重要——且通常要求师生模型具有相似的网络架构。本文提出一种新型知识蒸馏方法,旨在将基于Transformer的大模型中蕴含的时间依赖信息(通过注意力权重体现)有效迁移到设备端模型中。该方法具有良好的通用性,适用于多种网络架构,包括非注意力机制的模型(如CNN或RNN),且在推理阶段可保持原始网络结构不变。通过在音频事件检测数据集和噪声环境下的关键词检测数据集上进行的大量实验,结果表明,所提方法能够显著提升多种设备端模型的预测性能。