16 天前
PANNs:用于音频模式识别的大规模预训练音频神经网络
Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, Mark D. Plumbley

摘要
音频模式识别是机器学习领域的重要研究方向,涵盖音频标记、声学场景分类、音乐分类、语音情感识别以及声音事件检测等多个任务。近年来,神经网络已被广泛应用于解决音频模式识别问题。然而,以往的系统大多基于特定数据集构建,且训练数据的时长有限。在计算机视觉与自然语言处理领域,基于大规模数据集预训练的模型已展现出良好的跨任务泛化能力。相比之下,针对音频模式识别的大规模预训练系统研究仍较为有限。本文提出了一种在大规模 AudioSet 数据集上预训练的音频神经网络(Pretrained Audio Neural Networks, PANNs),并将其迁移应用于多种音频相关任务。我们系统地评估了基于不同卷积神经网络架构的 PANNs 在性能与计算复杂度方面的表现。此外,我们提出了一种名为 Wavegram-Logmel-CNN 的新型网络结构,该结构同时利用对数梅尔谱图(log-mel spectrogram)和原始波形作为输入特征,以充分捕捉音频的时频与时域信息。我们所提出的最优 PANN 系统在 AudioSet 音频标记任务上取得了 0.439 的平均精度均值(mean average precision, mAP),显著优于此前最佳系统 0.392 的表现。我们将 PANNs 迁移到六个音频模式识别任务中,并在其中多个任务上实现了当前最优性能。相关源代码与预训练模型已公开发布,详见:https://github.com/qiuqiangkong/audioset_tagging_cnn。