
摘要
完全依赖注意力机制,Vaswani等人(2017)提出的Transformer在机器翻译中取得了最先进的成果。与循环神经网络和卷积神经网络不同,它在其结构中并未显式建模相对或绝对位置信息。相反,它需要向输入添加绝对位置的表示。在这项工作中,我们提出了一种替代方法,扩展了自注意力机制以高效地考虑序列元素之间的相对位置或距离的表示。在WMT 2014英德和英法翻译任务中,该方法分别比绝对位置表示提高了1.3个BLEU分和0.3个BLEU分。值得注意的是,我们观察到结合相对位置和绝对位置表示并不会进一步提高翻译质量。我们描述了该方法的有效实现,并将其视为一种关系感知自注意力机制的实例,该机制可以推广到任意图标记输入。