6 个月前

摘要

在过去二十年中，卷积神经网络（CNN）架构在声音感知与认知建模方面取得了显著成果，能够学习到特征的分层组织结构。与计算机视觉领域的成功类似，音频特征分类可在多种数据集和标签体系下针对特定任务进行优化。事实上，专为图像理解设计的类似架构已被证明在声学场景分析任务中同样有效。本文提出将基于Transformer的架构（不包含卷积层）直接应用于原始音频信号。在包含200个类别的标准数据集Free Sound 50K上，我们的模型超越了传统卷积模型，达到了当前最先进的性能水平。这一成果尤为关键，因为在自然语言处理和计算机视觉领域之外，我们并未采用无监督预训练策略，便实现了对卷积架构的超越。在相同的训练集上，相较于平均精度（mean average precision）基准，我们实现了显著的性能提升。此外，通过引入近年来为卷积网络设计的池化技术，我们进一步优化了Transformer架构的性能。同时，我们还展示了如何借鉴小波理论中的多速率信号处理思想，应用于Transformer的嵌入表示，从而进一步提升模型表现。最后，我们揭示了所提出的模型能够自动学习一种非线性、非恒定带宽的滤波器组，该滤波器组呈现出一种适应性强的时间-频率前端表征，适用于音频理解任务，其特性与诸如音高估计等其他任务所依赖的表征方式存在本质差异。

源 PDF