6 个月前

音频和语音处理

Yuan Gong Yu-An Chung James Glass

摘要

在过去十年中，卷积神经网络（CNNs）已被广泛用作端到端音频分类模型的核心构建模块，这类模型旨在从音频频谱图直接学习映射到对应标签的表示。为更好地捕捉长距离的全局上下文信息，近年来一种趋势是在CNN的基础上引入自注意力机制，形成CNN-注意力混合模型。然而，目前尚不明确CNN的依赖是否必要，以及仅基于注意力机制的神经网络是否足以在音频分类任务中取得优异性能。本文通过提出Audio Spectrogram Transformer（AST）——首个完全无需卷积、纯注意力机制驱动的音频分类模型，回答了这一问题。我们在多个音频分类基准上对AST进行了评估，结果表明其在AudioSet数据集上取得了0.485的mAP新最优成绩，在ESC-50数据集上达到95.6%的准确率，在Speech Commands V2数据集上达到98.1%的准确率，显著提升了现有技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Yuan Gong Yu-An Chung James Glass

摘要

在过去十年中，卷积神经网络（CNNs）已被广泛用作端到端音频分类模型的核心构建模块，这类模型旨在从音频频谱图直接学习映射到对应标签的表示。为更好地捕捉长距离的全局上下文信息，近年来一种趋势是在CNN的基础上引入自注意力机制，形成CNN-注意力混合模型。然而，目前尚不明确CNN的依赖是否必要，以及仅基于注意力机制的神经网络是否足以在音频分类任务中取得优异性能。本文通过提出Audio Spectrogram Transformer（AST）——首个完全无需卷积、纯注意力机制驱动的音频分类模型，回答了这一问题。我们在多个音频分类基准上对AST进行了评估，结果表明其在AudioSet数据集上取得了0.485的mAP新最优成绩，在ESC-50数据集上达到95.6%的准确率，在Speech Commands V2数据集上达到98.1%的准确率，显著提升了现有技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供