HyperAIHyperAI
il y a 4 mois

Échelle de la traduction automatique neuronale

Myle Ott; Sergey Edunov; David Grangier; Michael Auli
Échelle de la traduction automatique neuronale
Résumé

Les modèles d'apprentissage de séquence à séquence nécessitent encore plusieurs jours pour atteindre des performances de pointe sur des ensembles de données de référence de grande taille en utilisant une seule machine. Cet article montre qu'une précision réduite et une formation par lots importants peuvent accélérer l'entraînement jusqu'à près de 5 fois sur une machine unique dotée de 8 GPU, grâce à un réglage et une mise en œuvre soigneux. Sur la tâche de traduction anglais-allemand du WMT'14, nous obtenons une précision équivalente à celle de Vaswani et al. (2017) en moins de 5 heures lors de l'entraînement sur 8 GPU, et nous atteignons un nouveau record d'état de l'art avec un score BLEU de 29,3 après 85 minutes d'entraînement sur 128 GPU. Nous améliorons encore ces résultats pour atteindre un score BLEU de 29,8 en formant le modèle sur le jeu de données beaucoup plus volumineux Paracrawl. Pour la tâche WMT'14 anglais-français, nous obtenons un état de l'art avec un score BLEU de 43,2 en 8,5 heures sur 128 GPU.