il y a 2 mois

Modèles récurrents profonds avec connexions de propagation rapide pour la traduction automatique neuronale

Jie Zhou; Ying Cao; Xuguang Wang; Peng Li; Wei Xu

Résumé

La traduction automatique neuronale (NMT) vise à résoudre les problèmes de traduction automatique (MT) en utilisant des réseaux neuronaux et a montré des résultats prometteurs ces dernières années. Cependant, la plupart des modèles NMT existants sont peu profonds et il existe toujours un écart de performance entre un modèle NMT unique et le meilleur système MT conventionnel. Dans ce travail, nous introduisons un nouveau type de connexions linéaires, appelées connexions fast-forward, basées sur des réseaux de mémoire à court et long terme (LSTM) profonds, ainsi qu'une architecture bidirectionnelle entrelacée pour empiler les couches LSTM. Les connexions fast-forward jouent un rôle essentiel dans la propagation des gradients et la construction d'une topologie profonde de 16 niveaux. Sur la tâche WMT'14 d'anglais vers français, nous obtenons un BLEU=37,7 avec un seul modèle d'attention, ce qui surpasse le modèle peu profond correspondant de 6,2 points BLEU. C'est la première fois qu'un modèle NMT unique atteint une performance de pointe et surpasse le meilleur modèle conventionnel de 0,7 points BLEU. Nous pouvons encore obtenir un BLEU=36,3 même sans utiliser un mécanisme d'attention. Après un traitement spécial des mots inconnus et l'agrégation des modèles, nous obtenons le meilleur score rapporté à ce jour sur cette tâche avec un BLEU=40,4. Nos modèles ont également été validés sur la tâche plus difficile WMT'14 d'anglais vers allemand.