HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierung der neuronalen maschinellen Übersetzung

Yanqi Zhou Li Dong Qiang He

Zusammenfassung

Sequenz-zu-Sequenz-Lernmodelle benötigen immer noch mehrere Tage, um auf großen Benchmark-Datensätzen mit einer einzelnen Maschine den aktuellen Stand der Technik zu erreichen. In dieser Arbeit wird gezeigt, dass durch die Verwendung reduzierter Genauigkeit und großer Batch-Größen das Training unter sorgfältiger Anpassung und Implementierung auf einem einzelnen 8-GPU-Rechner fast um das Fünffache beschleunigt werden kann. Bei der Übersetzung von Englisch nach Deutsch im Rahmen des WMT'14-Korpus erreichen wir die Genauigkeit von Vaswani et al. (2017) in weniger als fünf Stunden beim Training auf 8 GPUs und erzielen einen neuen Stand der Technik von 29,3 BLEU nach 85 Minuten Training auf 128 GPUs. Durch das Training auf dem viel größeren Paracrawl-Datensatz verbessern wir diese Ergebnisse weiter auf 29,8 BLEU. Bei der Übersetzung von Englisch nach Französisch im Rahmen des WMT'14-Korpus erreichen wir einen Stand der Technik von 43,2 BLEU in 8,5 Stunden auf 128 GPUs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp