17 天前
基于大规模语料库的CTC分段技术在德语端到端语音识别中的应用
Ludwig Kürzinger, Dominik Winkelbauer, Lujun Li, Tobias Watzel, Gerhard Rigoll

摘要
近期的端到端自动语音识别(ASR)系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外,这些模型在深度、参数量和模型容量方面均显著增长。然而,这类模型也需更多训练数据才能达到相当的性能水平。在本研究中,我们整合了多个可用于德语语音识别的公开语料库,包括尚未标注的语音数据,构建了一个超过1700小时的大型语音数据集。在数据准备方面,我们提出一种两阶段方法:首先利用通过连接时序分类(Connectionist Temporal Classification, CTC)预训练的ASR模型,从无分割或未标注的训练数据中自动获取更多训练样本。具体而言,通过在CTC模型上获得的标签概率,推断出语音片段的对齐结果,进而提取出有效语音片段。基于该扩充后的训练数据,我们训练了一个混合CTC/注意力机制的Transformer模型,在Tuda-DE测试集上取得了12.8%的词错误率(WER),显著优于传统混合DNN/HMM ASR系统的先前基准(14.4% WER)。