HyperAIHyperAI

Command Palette

Search for a command to run...

基于Transformer到CNN知识蒸馏的高效大规模音频标记

Florian Schmid Khaled Koutini Gerhard Widmer

摘要

音频谱图变换器(Audio Spectrogram Transformer)模型在音频标记(Audio Tagging)任务中占据主导地位,显著超越了以往占主导地位的卷积神经网络(CNN)。其优越性能主要得益于能够有效扩展模型规模,并充分利用大规模数据集(如 AudioSet)。然而,与 CNN 相比,Transformer 模型在参数量和计算资源需求方面更为苛刻。为此,本文提出一种基于离线知识蒸馏(Offline Knowledge Distillation, KD)的高效 CNN 训练方法,通过从高性能但结构复杂的 Transformer 模型中迁移知识,实现对轻量级 CNN 的优化。所提出的训练框架结合基于 MobileNetV3 的高效网络设计,生成的模型在参数效率、计算效率以及预测性能方面均优于先前的解决方案。我们提供了多个不同复杂度级别的模型,其性能从低复杂度模型逐步提升至在 AudioSet 数据集上达到 0.483 mAP 的新最优水平。源代码已开源,地址为:https://github.com/fschmid56/EfficientAT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供