17 天前

面向CHiME-6晚宴场景语音识别的端到端竞争性语音识别方法

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
面向CHiME-6晚宴场景语音识别的端到端竞争性语音识别方法
摘要

尽管端到端自动语音识别(ASR)系统在性能上已可与传统的混合模型相媲美,但在噪声环境和低资源条件下,其识别准确率仍易出现下降。本文指出,在此类极具挑战性的场景中,部分端到端方法的性能仍可接近混合模型的基准水平。为验证这一观点,我们以CHiME-6挑战赛数据集为例,展示日常语音中复杂噪声环境下的识别挑战。实验中,我们对比分析了基于CTC-Attention与RNN-Transducer的建模方法,并进一步考察了RNN与Transformer两种网络架构的性能差异。此外,我们还对不同声学特征表示及语音增强技术进行了系统比较,并评估了神经网络语言模型在低资源条件下对识别结果进行重打分的有效性。实验结果表明,我们提出的基于RNN-Transducer的最优端到端模型,结合改进的束搜索算法,在CHiME-6挑战赛中仅比LF-MMI TDNN-F混合模型基准高出3.8%的词错误率(WER)。而当引入基于引导式源分离(Guided Source Separation)的数据增强策略后,该方法在绝对词错误率上较混合基准系统提升2.7%,并相较此前已知的最佳端到端系统显著提升了25.7%。