15 天前

BEATs：基于声学分词器的音频预训练

Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Furu Wei

摘要

近年来，自监督学习（Self-Supervised Learning, SSL）在语言、视觉、语音及音频等多个领域均实现了迅猛发展。尽管在其他模态中，离散标签预测已被广泛采用，但当前最先进的音频自监督学习模型仍主要依赖重建损失（reconstruction loss）进行预训练。与重建损失相比，富含语义信息的离散标签预测能够促使SSL模型捕捉音频的高层语义特征，同时忽略冗余细节，更贴近人类感知机制。然而，由于音频信号具有连续性，且缺乏如语音中可直接利用的音素序列，构建适用于通用音频预训练的语义丰富型声学分词器（acoustic tokenizer）往往极具挑战性。为应对这一难题，本文提出BEATs（Bidirectional Encoder representations from Audio Transformers），一种迭代式音频预训练框架，通过交替优化声学分词器与音频SSL模型，实现性能的协同提升。在第一轮迭代中，我们采用随机投影（random projection）作为初始声学分词器，以掩码与标签预测的方式训练音频SSL模型。随后，在后续迭代中，通过知识蒸馏（knowledge distillation）技术，利用已预训练或微调的音频SSL模型所蕴含的语义信息，训练下一阶段的声学分词器。该过程循环进行，旨在实现声学分词器与音频SSL模型之间的相互促进。实验结果表明，所提出的声学分词器能够生成富含音频语义的离散标签，而基于此训练的音频SSL模型在多个音频分类基准任务上均取得了当前最优性能，甚至显著超越此前使用更大规模训练数据和更复杂模型参数的先进方法。具体而言，在仅使用音频数据、未引入任何外部数据的前提下，BEATs在AudioSet-2M数据集上取得了50.6%的mAP新纪录；在ESC-50数据集上，分类准确率高达98.1%。相关代码与预训练模型已公开，获取地址为：https://aka.ms/beats。