Traduction inversée sans étiquettes

Une méthode efficace pour générer un grand nombre de phrases parallèles afin d’entraîner des systèmes améliorés de traduction automatique neurale (NMT) consiste à utiliser les back-translations des données monolingues du côté cible. La méthode classique de back-translation s’est avérée incapable d’utiliser efficacement la quantité énorme de données monolingues existantes, en raison de la difficulté des modèles de traduction à distinguer entre les données parallèles authentiques et synthétiques pendant l’entraînement. L’ajout de balises (tagging) ou l’utilisation de portes (gates) a été proposée pour permettre aux modèles de traduction de différencier ces deux types de données, améliorant ainsi la méthode standard de back-translation et permettant également l’application de la back-translation itérative sur des paires de langues qui se comportaient mal avec la méthode classique. Dans ce travail, nous abordons la back-translation comme un problème d’adaptation de domaine, éliminant ainsi le besoin de balisage explicite. Dans cette approche, appelée back-translation sans balise (tag-less back-translation), les données parallèles synthétiques et authentiques sont traitées respectivement comme des données hors domaine (out-of-domain) et dans le domaine (in-domain). Grâce à un pré-entraînement suivi d’un ajustement fin (fine-tuning), le modèle de traduction est capable d’apprendre de manière plus efficace à partir de ces deux types de données pendant l’entraînement. Les résultats expérimentaux montrent que cette approche surpasse à la fois la méthode classique et celle avec balisage pour la traduction automatique neurale sur les paires de langues à faible ressource anglais-vietnamien et anglais-allemand.