
摘要
近年来,基于注意力机制的编码器-解码器(AED)模型在多个端到端自动语音识别(ASR)任务中表现出优异性能。针对此类模型存在的过自信问题,本文提出“松弛注意力”(relaxed attention)的概念:在训练过程中,通过简单地逐步向编码器-解码器注意力权重中注入均匀分布,即可有效缓解过自信现象,该方法仅需两行代码即可实现。我们在多种AED模型架构以及两个主流ASR任务——华尔街日报(Wall Street Journal, WSJ)和Librispeech上系统评估了松弛注意力的效果。实验结果表明,采用松弛注意力训练的Transformer模型在使用外部语言模型进行解码时,性能始终优于标准基线模型。在WSJ任务上,该方法取得了3.65%的词错误率(WER),相较当前最先进水平(4.20%)相对提升13.1%,创下基于Transformer的端到端语音识别新纪录,且仅引入了一个超参数。