HyperAI超神经

摘要

基于 Transformer 模型在自然语言处理（NLP）领域的巨大成功，已有多方尝试将其架构应用于其他领域，如视觉和音频。近期的研究表明， Transformer 模型在视觉和音频任务上的表现可以超越卷积神经网络（CNN）。然而，与已经成熟的CNN相比， Transformer 模型的主要缺点之一是计算复杂度较高。在 Transformer 模型中，计算和内存复杂度随输入长度呈二次增长。因此，针对 Transformer 模型的优化工作十分广泛，但往往以牺牲预测性能为代价。在本研究中，我们提出了一种新颖的方法来优化和正则化用于音频频谱图的 Transformer 模型。所提出的模型在Audioset数据集上达到了新的最先进水平，并且可以在单个消费级GPU上进行训练。此外，我们还提出了一种在性能和训练速度方面均优于CNN的 Transformer 模型。源代码：https://github.com/kkoutini/PaSST

摘要

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用Patchout高效训练音频Transformer模型

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用Patchout高效训练音频Transformer模型

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用Patchout高效训练音频Transformer模型

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

摘要

用 AI 构建 AI

HyperAI Newsletters