
摘要
序列到序列学习模型在单机上使用大型基准数据集达到最先进性能仍然需要数天时间。本文表明,通过精心调优和实现,降低精度和大批次训练可以在单台8-GPU机器上将近加速5倍。在WMT'14英德翻译任务中,我们在8个GPU上训练不到5小时即可达到Vaswani等人(2017)的准确度,并且在128个GPU上训练85分钟后,我们获得了29.3 BLEU的新最先进水平。通过在更大的Paracrawl数据集上进行训练,我们将这一结果进一步提升至29.8 BLEU。在WMT'14英法翻译任务中,我们在128个GPU上训练8.5小时后,获得了43.2的最先进BLEU分数。