Le Système de Traduction Automatique de l'Université de Sydney pour WMT19

Ce document décrit la soumission de l'Université de Sydney à la tâche partagée de traduction de nouvelles du WMT 2019. Nous avons participé à la direction finnoise vers anglais et avons obtenu le meilleur score BLEU (33,0) parmi tous les participants. Notre système est basé sur des réseaux Transformer auto-attentionnels, dans lesquels nous avons intégré les stratégies les plus récentes et efficaces issues de la recherche académique (par exemple, BPE, traduction inverse, sélection de données multi-caractéristiques, augmentation de données, assemblage de modèles gloutons, re-rangement, combinaison de systèmes ConMBR et post-traitement). De plus, nous proposons une nouvelle méthode d'augmentation appelée « Cycle Translation » ainsi qu'une stratégie de mélange de données appelée « Construction parallèle Grande/Petite » pour exploiter pleinement le corpus synthétique. Des expériences approfondies montrent que l'ajout des techniques mentionnées ci-dessus permet des améliorations continues des scores BLEU, et que le meilleur résultat dépasse la référence (modèle Transformer assemblé formé avec le corpus parallèle original) d'environ 5,3 points BLEU, atteignant ainsi les performances les plus avancées actuellement disponibles.