
摘要
音频谱图变换器(Audio Spectrogram Transformer)模型在音频标记(Audio Tagging)任务中占据主导地位,显著超越了以往占主导地位的卷积神经网络(CNN)。其优越性能主要得益于能够有效扩展模型规模,并充分利用大规模数据集(如 AudioSet)。然而,与 CNN 相比,Transformer 模型在参数量和计算资源需求方面更为苛刻。为此,本文提出一种基于离线知识蒸馏(Offline Knowledge Distillation, KD)的高效 CNN 训练方法,通过从高性能但结构复杂的 Transformer 模型中迁移知识,实现对轻量级 CNN 的优化。所提出的训练框架结合基于 MobileNetV3 的高效网络设计,生成的模型在参数效率、计算效率以及预测性能方面均优于先前的解决方案。我们提供了多个不同复杂度级别的模型,其性能从低复杂度模型逐步提升至在 AudioSet 数据集上达到 0.483 mAP 的新最优水平。源代码已开源,地址为:https://github.com/fschmid56/EfficientAT。