摘要
卷积神经网络(CNN)与基于Transformer的网络近年来在音频分类与音频标记等任务中受到广泛关注,这一趋势得益于其在计算机视觉领域的广泛应用。尽管音频频谱图与自然图像在信息分布上存在显著差异,但针对音频领域特性的专用模块,用于高效提取频谱图中信息的研究仍较为有限。本文提出利用多轴视觉Transformer(MaxViT)的强大能力,构建一种新型架构——解耦时间-频率音频Transformer(DTF-AT),该架构能够有效促进时间、频率、空间及通道维度之间的交互。所提出的DTF-AT架构在多种音频与语音分类任务中进行了严格评估,持续刷新了当前最先进(SOTA)性能的基准线。特别地,在具有挑战性的AudioSet 2M分类任务中,当模型从零开始训练时,性能提升达4.4%;而当模型采用ImageNet-1K预训练权重初始化时,仍实现了3.2%的显著提升。此外,本文还开展了全面的消融实验,深入分析所提方法的有效性与各组件的影响。代码库与预训练权重已公开,详见:https://github.com/ta012/DTFAT.git