Filtrage de corpus parallèles par modèles de langage pré-entraînés

Les données extraites par web-crawling constituent une source précieuse de corpus parallèles pour l’entraînement des modèles de traduction automatique. Elles sont obtenues automatiquement, mais sont extrêmement bruitées, et des travaux récents montrent que les systèmes de traduction automatique neuronale sont plus sensibles au bruit que les méthodes traditionnelles de traduction automatique statistique. Dans cet article, nous proposons une nouvelle approche pour filtrer les paires de phrases bruyantes provenant de corpus web-crawled à l’aide de modèles linguistiques pré-entraînés. Nous mesurons le degré de parallélisme des phrases en exploitant la capacité multilingue de BERT, et utilisons le modèle linguistique GPT (Generative Pre-training) comme filtre de domaine afin d’équilibrer les distributions des domaines des données. Nous évaluons notre méthode sur la tâche partagée de filtrage de corpus parallèles WMT 2018, ainsi que sur notre propre corpus parallèle japonais-chinois extrait par web-crawling. Notre approche surpasse significativement les méthodes de référence et atteint un nouveau record d’état de l’art. Dans un cadre non supervisé, elle obtient des performances comparables à celles de la meilleure méthode supervisée. Nous présentons également une évaluation sur un corpus parallèle japonais-chinois extrait par web-crawling, que nous rendons publiquement disponible.