17 天前

W2v-BERT:结合对比学习与掩码语言建模的自监督语音预训练

Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu
W2v-BERT:结合对比学习与掩码语言建模的自监督语音预训练
摘要

受掩码语言建模(Masked Language Modeling, MLM)在自然语言处理预训练模型中取得成功的启发,我们提出了 w2v-BERT,该方法探索将 MLM 应用于自监督语音表示学习。w2v-BERT 是一种结合对比学习与 MLM 的框架:其中,对比学习任务旨在使模型将输入的连续语音信号离散化为一组有限且具有判别性的语音 token;而 MLM 任务则通过利用这些离散化 token 来执行掩码预测,训练模型学习上下文相关的语音表示。与现有的基于 MLM 的语音预训练框架(如 HuBERT 依赖迭代式重新聚类与重训练流程,或 vq-wav2vec 采用两个独立训练模块的拼接结构)不同,w2v-BERT 可以通过同时求解对比学习任务与 MLM 任务,实现端到端的联合优化。实验结果表明,在使用 Libri-Light 60k 语料作为无监督训练数据的情况下,w2v-BERT 在 LibriSpeech 基准测试上取得了与当前最先进预训练模型相媲美的性能。特别是在与公开发布的 Conformer-based wav2vec 2.0 和 HuBERT 模型对比时,我们的模型在 test-clean 和 test-other 子集上分别实现了 5% 至 10% 的相对词错误率(WER)降低。当应用于谷歌语音搜索业务流量数据集时,w2v-BERT 相较于我们内部基于 Conformer 的 wav2vec 2.0 模型,相对性能提升超过 30%。