17 天前

语音识别中的迭代伪标签方法

Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert
语音识别中的迭代伪标签方法
摘要

伪标签(Pseudo-labeling)在端到端自动语音识别(ASR)领域近年来展现出巨大潜力。本文研究了一种名为迭代伪标签(Iterative Pseudo-Labeling, IPL)的半监督学习算法,该算法能够随着声学模型的不断优化,在无标签数据上高效地执行多轮伪标签生成。具体而言,IPL在每一轮迭代中,利用已标注数据和一部分无标签数据对现有模型进行微调。我们系统分析了IPL的核心组成部分,包括基于语言模型的解码策略以及数据增强技术。实验结果表明,IPL在标准设置和低资源设置下均在Librispeech测试集上取得了当前最优的词错误率(Word Error Rate, WER)。此外,我们进一步研究了在不同语料上训练的语言模型对IPL性能的影响,验证了IPL能够有效利用额外的文本数据。最后,我们发布了一个新的大规模领域内(in-domain)文本语料库,该语料库与Librispeech训练转录文本无重叠,旨在推动低资源环境下半监督ASR技术的研究与发展。