2 个月前
通用变换器
Dehghani, Mostafa ; Gouws, Stephan ; Vinyals, Oriol ; Uszkoreit, Jakob ; Kaiser, Łukasz

摘要
循环神经网络(RNNs)通过在每个新的数据点上更新其状态来顺序处理数据,长期以来一直是序列建模任务的事实标准选择。然而,它们固有的顺序计算特性使得训练速度较慢。最近的研究表明,前馈和卷积架构在某些序列建模任务(如机器翻译)中取得了更好的结果,并且由于这些模型可以并行处理序列中的所有输入,因此具有易于并行化和更快的训练时间的优势。尽管如此,流行的前馈序列模型(如Transformer)在许多简单的任务上仍然无法泛化,而这些任务对于循环模型来说则相对容易处理,例如复制字符串或进行简单的逻辑推理时,当字符串或公式长度超过训练时所见的长度时,Transformer的表现就会下降。我们提出了通用Transformer(Universal Transformer, UT),这是一种时间并行的自注意力循环序列模型,可以视为Transformer模型的一种泛化,并解决了这些问题。UT结合了前馈序列模型(如Transformer)的并行性和全局感受野以及RNNs的递归归纳偏置。我们还引入了一种动态的位置停止机制,并发现它在多个任务上提高了准确性。与标准的Transformer不同,在某些假设条件下,UT可以被证明是图灵完备的。我们的实验表明,在广泛的算法和语言理解任务中,UT的表现优于标准的Transformer,包括具有挑战性的LAMBADA语言建模任务,在该任务中UT达到了新的最佳性能;此外,在WMT14英德机器翻译数据集上,UT比Transformer提高了0.9个BLEU分数。