摘要

我们研究了伪标签（pseudo-labeling）在半监督训练ResNet、时深可分离卷积网络（Time-Depth Separable ConvNets）以及Transformer模型用于语音识别中的应用，所采用的损失函数包括CTC或Seq2Seq。实验在标准的LibriSpeech数据集上进行，并通过伪标签技术引入来自LibriVox的额外未标注语音数据。结果表明，尽管基于Transformer的声学模型在仅使用监督数据时已表现出卓越性能，但半监督学习能够显著提升所有架构与损失函数下的模型表现，并有效缩小不同模型之间的性能差距。在此基础上，我们在标准监督学习设置下，实现了使用外部语言模型解码的端到端声学模型的新最优性能；而在半监督训练设置下，更达到了全新的绝对最优水平。最后，我们探讨了利用不同数量未标注语音数据的影响，提出了若干评估未标注语音数据特性的方法，这些方法有助于提升声学建模效果；同时发现，使用更多语音数据进行训练的声学模型，对外部语言模型的依赖程度显著降低。

源 PDF