17 天前
端到端自动语音识别:基于现代架构的从监督学习到半监督学习
Gabriel Synnaeve, Qiantong Xu, Jacob Kahn, Tatiana Likhomanenko, Edouard Grave, Vineel Pratap, Anuroop Sriram, Vitaliy Liptchinsky, Ronan Collobert

摘要
我们研究了伪标签(pseudo-labeling)在半监督训练ResNet、时深可分离卷积网络(Time-Depth Separable ConvNets)以及Transformer模型用于语音识别中的应用,所采用的损失函数包括CTC或Seq2Seq。实验在标准的LibriSpeech数据集上进行,并通过伪标签技术引入来自LibriVox的额外未标注语音数据。结果表明,尽管基于Transformer的声学模型在仅使用监督数据时已表现出卓越性能,但半监督学习能够显著提升所有架构与损失函数下的模型表现,并有效缩小不同模型之间的性能差距。在此基础上,我们在标准监督学习设置下,实现了使用外部语言模型解码的端到端声学模型的新最优性能;而在半监督训练设置下,更达到了全新的绝对最优水平。最后,我们探讨了利用不同数量未标注语音数据的影响,提出了若干评估未标注语音数据特性的方法,这些方法有助于提升声学建模效果;同时发现,使用更多语音数据进行训练的声学模型,对外部语言模型的依赖程度显著降低。