6 个月前

摘要

音频模式识别是机器学习领域的重要研究方向，涵盖音频标记、声学场景分类、音乐分类、语音情感识别以及声音事件检测等多个任务。近年来，神经网络已被广泛应用于解决音频模式识别问题。然而，以往的系统大多基于特定数据集构建，且训练数据的时长有限。在计算机视觉与自然语言处理领域，基于大规模数据集预训练的模型已展现出良好的跨任务泛化能力。相比之下，针对音频模式识别的大规模预训练系统研究仍较为有限。本文提出了一种在大规模 AudioSet 数据集上预训练的音频神经网络（Pretrained Audio Neural Networks, PANNs），并将其迁移应用于多种音频相关任务。我们系统地评估了基于不同卷积神经网络架构的 PANNs 在性能与计算复杂度方面的表现。此外，我们提出了一种名为 Wavegram-Logmel-CNN 的新型网络结构，该结构同时利用对数梅尔谱图（log-mel spectrogram）和原始波形作为输入特征，以充分捕捉音频的时频与时域信息。我们所提出的最优 PANN 系统在 AudioSet 音频标记任务上取得了 0.439 的平均精度均值（mean average precision, mAP），显著优于此前最佳系统 0.392 的表现。我们将 PANNs 迁移到六个音频模式识别任务中，并在其中多个任务上实现了当前最优性能。相关源代码与预训练模型已公开发布，详见：https://github.com/qiuqiangkong/audioset_tagging_cnn。

源 PDF