17 天前

WavLM:面向全栈语音处理的大规模自监督预训练

Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei
WavLM:面向全栈语音处理的大规模自监督预训练
摘要

自监督学习(Self-supervised Learning, SSL)在语音识别任务中取得了显著成果,然而在其他语音处理任务中的探索仍相对有限。由于语音信号蕴含多维度信息,如说话人身份、副语言特征、语音内容等,因此为所有语音任务学习通用表征极具挑战性。为应对这一难题,我们提出了一种新型预训练模型——WavLM,旨在解决端到端的下游语音处理任务。WavLM在预训练阶段联合学习掩码语音预测与语音去噪任务。通过这一机制,WavLM不仅通过掩码语音预测任务保持了对语音内容的建模能力,还通过语音去噪增强了其在非自动语音识别(non-ASR)任务中的潜力。此外,WavLM在Transformer结构中引入了门控相对位置偏置(gated relative position bias),以更有效地捕捉输入语音序列的时序顺序关系。我们还将训练数据集规模从6万小时扩展至9.4万小时。实验结果表明,WavLM Large在SUPERB基准测试中达到了当前最优性能,并在多个代表性语音处理任务的基准上实现了显著提升。相关代码与预训练模型已开源,可访问 https://aka.ms/wavlm 获取。