
摘要
注意力机制一直被用作辅助手段来帮助RNN或CNN。然而,Transformer(Vaswani等人,2017)最近通过仅使用注意力机制在机器翻译中取得了最先进的性能,并显著减少了训练时间。受Transformer的启发,提出了全注意力机制的句子编码器——方向自注意力网络(Directional Self Attention Network,Shen等人,2017)。该网络通过利用句子中的前向和后向方向信息,在各种数据上表现出良好的性能。但在他们的研究中,完全未考虑词与词之间的距离,这是学习局部依赖关系以帮助理解输入文本上下文的一个重要特征。我们提出了一种基于距离的自注意力网络(Distance-based Self-Attention Network),该网络通过使用简单的距离掩码来考虑词距,从而在不丧失注意力机制固有的全局依赖建模能力的情况下,对局部依赖进行建模。我们的模型在自然语言推理(NLI)数据上表现出良好的性能,并且在斯坦福自然语言推理(SNLI)数据集上创下了新的最先进结果。此外,我们还展示了该模型在长句子或文档处理上的优势。