HyperAIHyperAI

Command Palette

Search for a command to run...

Comprendre la rétrotraduction à grande échelle

Sergey Edunov Myle Ott Michael Auli David Grangier

Résumé

Une méthode efficace pour améliorer la traduction automatique neuronale avec des données monolingues consiste à augmenter le corpus d'entraînement parallèle avec les rétrotraductions de phrases en langue cible. Cette étude élargit la compréhension de la rétrotraduction et examine plusieurs méthodes pour générer des phrases sources synthétiques. Nous constatons que, sauf dans les contextes à ressources limitées, les rétrotraductions obtenues par échantillonnage ou par des sorties de faisceau bruitées sont les plus efficaces. Notre analyse montre que l'échantillonnage ou les données synthétiques bruitées fournissent un signal d'entraînement beaucoup plus fort que les données générées par un faisceau ou une recherche gloutonne. Nous comparons également comment les données synthétiques se comparent aux véritables textes bilingues et étudions divers effets de domaine. Enfin, nous mettons à l'échelle notre méthode pour traiter des centaines de millions de phrases monolingues et atteignons un nouveau niveau d'état de l'art avec un score de 35 BLEU sur l'ensemble de test anglais-allemand du WMT'14.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp