HyperAIHyperAI
il y a 2 mois

Traduction Non-Auto-Régressive des Machines Neurales

Jiatao Gu; James Bradbury; Caiming Xiong; Victor O.K. Li; Richard Socher
Traduction Non-Auto-Régressive des Machines Neurales
Résumé

Les approches existantes de la traduction automatique neuronale conditionnent chaque mot de sortie sur les sorties précédemment générées. Nous présentons un modèle qui évite cette propriété auto-régressive et produit ses sorties en parallèle, permettant une latence inférieure d'un ordre de grandeur lors de l'inférence. Grâce à la distillation de connaissances, l'utilisation des fécondités des jetons d'entrée comme variable latente et le réglage fin par gradient de politique, nous atteignons cela au coût minimal de 2,0 points BLEU par rapport au réseau Transformer auto-régressif utilisé comme enseignant. Nous démontrons des améliorations cumulatives substantielles associées à chacun des trois aspects de notre stratégie d'entraînement, et nous validons notre approche sur les paires linguistiques IWSLT 2016 anglais-allemand et deux paires du WMT. En échantillonnant les fécondités en parallèle lors de l'inférence, notre modèle non auto-régressif atteint une performance quasi-d'État de l'art de 29,8 BLEU sur WMT 2016 anglais-roumain.

Traduction Non-Auto-Régressive des Machines Neurales | Articles de recherche récents | HyperAI