
要約
シーケンス・ツー・シーケンス学習モデルは、単一のマシンを使用して大規模ベンチマークデータセットで最先端の性能に到達するのに数日を要します。本論文では、精度の低下と大規模バッチ訓練により、慎重な調整と実装によって単一の8-GPUマシンでの学習が最大で約5倍高速化することを示しています。WMT'14英語-ドイツ語翻訳タスクにおいて、8つのGPUで学習させることでVaswaniら(2017)の精度に5時間未満で匹敵し、128つのGPUで85分間学習させることで新しい最先端の29.3 BLEUスコアを達成しました。さらに、Paracrawlデータセットというより大きなデータセットを使用して学習することで、この結果を29.8 BLEUまで向上させました。WMT'14英語-フランス語タスクでは、128つのGPUを使用して8.5時間で43.2のBLEUスコアという最先端の結果を得ました。