2 个月前
EAT:基于高效音频变换器的自监督预训练
Chen, Wenxi ; Liang, Yuzhe ; Ma, Ziyang ; Zheng, Zhisheng ; Chen, Xie

摘要
音频自监督学习(Self-Supervised Learning, SSL)预训练旨在从无标签的音频数据中学习高质量的表示,已取得了显著进展。然而,预训练过程中的巨大计算需求对音频SSL模型的潜在应用和优化构成了重大障碍。在本文中,受到图像模态下data2vec 2.0和音频模态下Audio-MAE成功经验的启发,我们引入了高效音频变压器(Efficient Audio Transformer, EAT),以进一步提升音频SSL的有效性和效率。所提出的EAT将引导自监督训练范式应用于音频领域。设计了一种新颖的语音帧目标(Utterance-Frame Objective, UFO),以增强声学事件的建模能力。此外,我们揭示了掩码策略在音频SSL预训练中的重要性,并发现使用大逆向块掩码可以获得更优的音频表示。实验结果表明,EAT在包括AudioSet(AS-2M, AS-20K)、ESC-50和SPC-2在内的多种音频相关任务上达到了最先进的(State-of-the-Art, SOTA)性能,并且相比现有的音频SSL模型,预训练速度提高了约15倍。