HyperAIHyperAI

Command Palette

Search for a command to run...

使用Patchout高效训练音频Transformer模型

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

基于 Transformer 模型在自然语言处理(NLP)领域的巨大成功,已有多方尝试将其架构应用于其他领域,如视觉和音频。近期的研究表明, Transformer 模型在视觉和音频任务上的表现可以超越卷积神经网络(CNN)。然而,与已经成熟的CNN相比, Transformer 模型的主要缺点之一是计算复杂度较高。在 Transformer 模型中,计算和内存复杂度随输入长度呈二次增长。因此,针对 Transformer 模型的优化工作十分广泛,但往往以牺牲预测性能为代价。在本研究中,我们提出了一种新颖的方法来优化和正则化用于音频频谱图的 Transformer 模型。所提出的模型在Audioset数据集上达到了新的最先进水平,并且可以在单个消费级GPU上进行训练。此外,我们还提出了一种在性能和训练速度方面均优于CNN的 Transformer 模型。源代码:https://github.com/kkoutini/PaSST


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供