
摘要
循环神经网络(Recurrent Neural Networks, RNN)长期以来一直是序列建模的主要选择。然而,它严重受到两个问题的困扰:难以捕捉非常长的依赖关系以及无法并行化顺序计算过程。因此,最近提出了许多基于卷积和注意力操作的非循环序列模型。特别是,具有多头注意力机制(multi-head attention)的模型如Transformer在多种序列建模任务中展示了极高的有效性,能够捕捉长距离依赖关系。尽管这些模型取得了成功,但它们缺乏必要的组件来建模序列中的局部结构,并且过度依赖位置嵌入(position embeddings),后者的效果有限且需要大量的设计工作。在本文中,我们提出了一种R-Transformer模型,该模型结合了RNN和多头注意力机制的优点,同时避免了各自的缺点。所提出的模型能够在不使用任何位置嵌入的情况下有效捕捉序列中的局部结构和全局长距离依赖关系。我们通过广泛的实验对R-Transformer进行了评估,实验数据来自多个领域,实证结果表明,在大多数任务中R-Transformer显著优于现有最先进方法。我们已将代码公开发布在 \url{https://github.com/DSE-MSU/R-transformer}。