17 天前
使用 Wordpieces 实现更快、更简单且更准确的混合 ASR 系统
Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig

摘要
在本研究中,我们首先表明,在广泛使用的LibriSpeech基准测试上,基于Transformer的上下文相关连接时序分类(CTC)系统取得了当前最优的性能。随后,我们展示了采用子词单元(wordpieces)作为建模单位,并结合CTC训练方法,相较于传统的基于帧的交叉熵训练,可显著简化工程实现流程——无需再进行高斯混合模型(GMM)初始化、决策树构建以及强制对齐等步骤,同时仍能获得极具竞争力的词错误率(Word Error Rate)。此外,使用子词单元作为建模单位还能显著提升推理阶段的运行效率,因为可以在不损失准确率的前提下采用更大的步长(stride)。这些结论在两个内部的VideoASR数据集上得到了进一步验证:一个是与英语同属融合型语言的德语数据集,另一个是典型的黏着语——土耳其语数据集。