
摘要
音频事件在时间和频率维度上均具有层次化结构,可被组合以构建更抽象的语义音频类别。本文提出一种多尺度音频频谱变换器(Multiscale Audio Spectrogram Transformer, MAST),通过层次化表示学习实现高效的音频分类。具体而言,MAST在不同阶段分别采用一维(时间维度)和二维(频率维度)池化操作,逐步减少序列标记(tokens)数量的同时增加特征维度。在不依赖外部训练数据的前提下,MAST在Kinetics-Sounds、Epic-Kitchens-100和VGGSound三个数据集上的Top-1准确率分别较AST~\cite{gong2021ast} 提升22.2%、4.4%和4.7%。在包含超过20%音频缺失的下载版AudioSet数据集上,MAST亦取得了略优于AST的分类准确率。此外,与AST相比,MAST在计算效率方面提升显著:乘加操作(MACs)减少至1/5,参数量降低42%。通过聚类指标分析与特征可视化,我们进一步验证了所提出的MAST能够从音频信号中学习到更具语义可分性的特征表示。