2 个月前
注意力就是你所需要的全部
Vaswani, Ashish ; Shazeer, Noam ; Parmar, Niki ; Uszkoreit, Jakob ; Jones, Llion ; Gomez, Aidan N. ; Kaiser, Lukasz ; Polosukhin, Illia

摘要
当前主流的序列转换模型基于复杂的递归神经网络或卷积神经网络的编码器-解码器配置。表现最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,该架构完全依赖于注意力机制,彻底摒弃了递归和卷积。在两个机器翻译任务上的实验表明,这些模型不仅在质量上优于现有模型,而且具有更高的并行性,并且训练时间显著减少。我们的模型在WMT 2014英德翻译任务中达到了28.4的BLEU分数,比现有的最佳结果(包括集成模型)提高了超过2个BLEU点。在WMT 2014英法翻译任务中,我们的模型在八个GPU上训练3.5天后,取得了41.8的单模型最新BLEU分数,这仅占文献中最佳模型训练成本的一小部分。我们通过成功应用于英语句法分析任务(无论是在大量数据还是有限数据条件下),证明了Transformer在其他任务中的良好泛化能力。