HyperAIHyperAI

Command Palette

Search for a command to run...

PANNs:用于音频模式识别的大规模预训练音频神经网络

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

摘要

音频模式识别是机器学习领域的重要研究方向,涵盖音频标记、声学场景分类、音乐分类、语音情感识别以及声音事件检测等多个任务。近年来,神经网络已被广泛应用于解决音频模式识别问题。然而,以往的系统大多基于特定数据集构建,且训练数据的时长有限。在计算机视觉与自然语言处理领域,基于大规模数据集预训练的模型已展现出良好的跨任务泛化能力。相比之下,针对音频模式识别的大规模预训练系统研究仍较为有限。本文提出了一种在大规模 AudioSet 数据集上预训练的音频神经网络(Pretrained Audio Neural Networks, PANNs),并将其迁移应用于多种音频相关任务。我们系统地评估了基于不同卷积神经网络架构的 PANNs 在性能与计算复杂度方面的表现。此外,我们提出了一种名为 Wavegram-Logmel-CNN 的新型网络结构,该结构同时利用对数梅尔谱图(log-mel spectrogram)和原始波形作为输入特征,以充分捕捉音频的时频与时域信息。我们所提出的最优 PANN 系统在 AudioSet 音频标记任务上取得了 0.439 的平均精度均值(mean average precision, mAP),显著优于此前最佳系统 0.392 的表现。我们将 PANNs 迁移到六个音频模式识别任务中,并在其中多个任务上实现了当前最优性能。相关源代码与预训练模型已公开发布,详见:https://github.com/qiuqiangkong/audioset_tagging_cnn


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供