Skalierung der neuronalen maschinellen Übersetzung

Sequenz-zu-Sequenz-Lernmodelle benötigen immer noch mehrere Tage, um auf großen Benchmark-Datensätzen mit einer einzelnen Maschine den aktuellen Stand der Technik zu erreichen. In dieser Arbeit wird gezeigt, dass durch die Verwendung reduzierter Genauigkeit und großer Batch-Größen das Training unter sorgfältiger Anpassung und Implementierung auf einem einzelnen 8-GPU-Rechner fast um das Fünffache beschleunigt werden kann. Bei der Übersetzung von Englisch nach Deutsch im Rahmen des WMT'14-Korpus erreichen wir die Genauigkeit von Vaswani et al. (2017) in weniger als fünf Stunden beim Training auf 8 GPUs und erzielen einen neuen Stand der Technik von 29,3 BLEU nach 85 Minuten Training auf 128 GPUs. Durch das Training auf dem viel größeren Paracrawl-Datensatz verbessern wir diese Ergebnisse weiter auf 29,8 BLEU. Bei der Übersetzung von Englisch nach Französisch im Rahmen des WMT'14-Korpus erreichen wir einen Stand der Technik von 43,2 BLEU in 8,5 Stunden auf 128 GPUs.