8 个月前

卷积神经网络

音频和语音处理

Florian Schmid Khaled Koutini Gerhard Widmer

摘要

大规模音频数据集（如AudioSet）的引入为Transformer在音频领域的应用铺平了道路，并使其在许多任务中取代卷积神经网络（CNN）成为最先进的神经网络架构。音频频谱图Transformer在利用大型数据集方面表现出色，能够生成强大的预训练模型，在微调下游任务时超越CNN。然而，当前流行的音频频谱图Transformer在计算复杂度方面比CNN更为苛刻。最近，我们证明了通过使用Transformer到CNN的知识蒸馏技术，高效的CNN可以在大型数据集上赶上甚至超过Transformer的性能。在这项工作中，我们进一步扩展了这一研究方向，并通过引入动态CNN模块（由动态非线性、动态卷积和注意力机制构建）来提高高效CNN的能力。我们展示了这些动态CNN在大规模AudioSet上的音频标签任务中，在性能-复杂度权衡和参数效率方面优于传统的高效CNN。此外，我们的实验还表明，所引入的动态CNN在下游任务中表现出更好的性能，并且具有良好的可扩展性，在AudioSet及多个下游任务中达到了与Transformer相当甚至更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

音频和语音处理

Florian Schmid Khaled Koutini Gerhard Widmer

摘要

大规模音频数据集（如AudioSet）的引入为Transformer在音频领域的应用铺平了道路，并使其在许多任务中取代卷积神经网络（CNN）成为最先进的神经网络架构。音频频谱图Transformer在利用大型数据集方面表现出色，能够生成强大的预训练模型，在微调下游任务时超越CNN。然而，当前流行的音频频谱图Transformer在计算复杂度方面比CNN更为苛刻。最近，我们证明了通过使用Transformer到CNN的知识蒸馏技术，高效的CNN可以在大型数据集上赶上甚至超过Transformer的性能。在这项工作中，我们进一步扩展了这一研究方向，并通过引入动态CNN模块（由动态非线性、动态卷积和注意力机制构建）来提高高效CNN的能力。我们展示了这些动态CNN在大规模AudioSet上的音频标签任务中，在性能-复杂度权衡和参数效率方面优于传统的高效CNN。此外，我们的实验还表明，所引入的动态CNN在下游任务中表现出更好的性能，并且具有良好的可扩展性，在AudioSet及多个下游任务中达到了与Transformer相当甚至更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供