il y a 17 jours

Traduction inversée sans étiquettes

Idris Abdulmumin, Bashir Shehu Galadanci, Aliyu Garba

Résumé

Une méthode efficace pour générer un grand nombre de phrases parallèles afin d’entraîner des systèmes améliorés de traduction automatique neurale (NMT) consiste à utiliser les back-translations des données monolingues du côté cible. La méthode classique de back-translation s’est avérée incapable d’utiliser efficacement la quantité énorme de données monolingues existantes, en raison de la difficulté des modèles de traduction à distinguer entre les données parallèles authentiques et synthétiques pendant l’entraînement. L’ajout de balises (tagging) ou l’utilisation de portes (gates) a été proposée pour permettre aux modèles de traduction de différencier ces deux types de données, améliorant ainsi la méthode standard de back-translation et permettant également l’application de la back-translation itérative sur des paires de langues qui se comportaient mal avec la méthode classique. Dans ce travail, nous abordons la back-translation comme un problème d’adaptation de domaine, éliminant ainsi le besoin de balisage explicite. Dans cette approche, appelée back-translation sans balise (tag-less back-translation), les données parallèles synthétiques et authentiques sont traitées respectivement comme des données hors domaine (out-of-domain) et dans le domaine (in-domain). Grâce à un pré-entraînement suivi d’un ajustement fin (fine-tuning), le modèle de traduction est capable d’apprendre de manière plus efficace à partir de ces deux types de données pendant l’entraînement. Les résultats expérimentaux montrent que cette approche surpasse à la fois la méthode classique et celle avec balisage pour la traduction automatique neurale sur les paires de langues à faible ressource anglais-vietnamien et anglais-allemand.