HyperAIHyperAI
il y a 2 mois

Le Meilleur des Deux Mondes : Combiner les Récentes Avancées en Traduction Automatique Neuronale

Mia Xu Chen; Orhan Firat; Ankur Bapna; Melvin Johnson; Wolfgang Macherey; George Foster; Llion Jones; Niki Parmar; Mike Schuster; Zhifeng Chen; Yonghui Wu; Macduff Hughes
Le Meilleur des Deux Mondes : Combiner les Récentes Avancées en Traduction Automatique Neuronale
Résumé

L'année écoulée a vu des progrès rapides dans la modélisation séquence-à-séquence (seq2seq) pour la Traduction Automatique (TA). Les approches classiques basées sur les RNN (Réseaux de Neurones Récurrents) en TA ont d'abord été surpassées par le modèle convolutif seq2seq, qui a ensuite été surpassé par le modèle Transformer plus récent. Chacune de ces nouvelles approches repose sur une architecture fondamentale accompagnée d'un ensemble de techniques de modélisation et d'entraînement qui, en principe, peuvent être appliquées à d'autres architectures seq2seq. Dans cet article, nous dissocions les nouvelles architectures et leurs techniques associées de deux manières. Premièrement, nous identifions plusieurs techniques clés de modélisation et d'entraînement, et les appliquons à l'architecture RNN, aboutissant à un nouveau modèle RNMT+ qui surpasse les trois architectures fondamentales sur les tâches de référence WMT'14 anglais vers français et anglais vers allemand. Deuxièmement, nous analysons les propriétés de chaque architecture fondamentale seq2seq et concevons de nouvelles architectures hybrides destinées à combiner leurs forces. Nos modèles hybrides obtiennent des améliorations supplémentaires, surpassant le modèle RNMT+ sur les deux ensembles de données de référence.