HyperAIHyperAI

Command Palette

Search for a command to run...

端到端自动语音识别:基于现代架构的从监督学习到半监督学习

Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky Ronan Collobert

摘要

我们研究了伪标签(pseudo-labeling)在半监督训练ResNet、时深可分离卷积网络(Time-Depth Separable ConvNets)以及Transformer模型用于语音识别中的应用,所采用的损失函数包括CTC或Seq2Seq。实验在标准的LibriSpeech数据集上进行,并通过伪标签技术引入来自LibriVox的额外未标注语音数据。结果表明,尽管基于Transformer的声学模型在仅使用监督数据时已表现出卓越性能,但半监督学习能够显著提升所有架构与损失函数下的模型表现,并有效缩小不同模型之间的性能差距。在此基础上,我们在标准监督学习设置下,实现了使用外部语言模型解码的端到端声学模型的新最优性能;而在半监督训练设置下,更达到了全新的绝对最优水平。最后,我们探讨了利用不同数量未标注语音数据的影响,提出了若干评估未标注语音数据特性的方法,这些方法有助于提升声学建模效果;同时发现,使用更多语音数据进行训练的声学模型,对外部语言模型的依赖程度显著降低。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供