
摘要
自注意力机制在自然语言处理(NLP)的诸多下游任务中取得了巨大成功,这促使研究者探索将其应用于语音处理任务。然而,自注意力机制在语音应用中的实际效果尚未完全发挥,主要原因在于其在处理高度相关的语音帧时面临挑战。为此,本文提出一种新型神经网络模型架构——多流自注意力(multi-stream self-attention),旨在提升自注意力机制在语音识别中的有效性。所提出的模型架构由多个并行的自注意力编码器流组成,每个流包含多层一维卷积(1D convolution),其卷积核采用扩张(dilated)结构,且每一流具有唯一的扩张率;随后接一个自注意力层。在每一流中,自注意力机制仅关注输入语音帧的单一时间分辨率,从而使得注意力计算更加高效。在后续阶段,所有流的输出被拼接(concatenated)后,通过线性投影生成最终的嵌入表示。通过堆叠多个所提出的多流自注意力编码器模块,并利用神经网络语言模型对生成的词网(lattice)进行重打分(rescoring),我们在LibriSpeech语料库的test-clean数据集上取得了2.2%的词错误率(Word Error Rate),为该数据集目前报道的最佳结果。