DOCmT5 : Pré-entraînement à l'échelle du document des modèles linguistiques multilingues

Dans cet article, nous introduisons DOCmT5, un modèle linguistique séquentiel multilingue préentraîné à grande échelle sur des documents parallèles. Alors que les approches antérieures se sont concentrées sur l’exploitation de données parallèles au niveau de la phrase, nous proposons de construire un modèle préentraîné généraliste capable de comprendre et de générer des documents longs. Nous introduisons une nouvelle stratégie de préentraînement simple et efficace, appelée traduction par réordonnancement de documents (DrMT), dans laquelle des documents d’entrée, mélangés et partiellement masqués, doivent être traduits. Le DrMT permet d’obtenir des améliorations constantes par rapport à des modèles de référence performants sur diverses tâches de génération à l’échelle du document, incluant une augmentation de plus de 12 points BLEU pour la traduction de documents sur des paires de langues déjà vues, plus de 7 points BLEU pour des paires de langues inconnues, et plus de 3 points ROUGE-1 pour la synthèse multilingue sur des paires de langues déjà vues. Nous atteignons l’état de l’art (SOTA) sur les tâches de traduction de documents WMT20 De-En et IWSLT15 Zh-En. Nous menons également une analyse approfondie de plusieurs facteurs influant sur le préentraînement de documents, notamment (1) l’impact de la qualité des données de préentraînement et (2) l’effet de la combinaison du préentraînement monolingue et multilingue. Nous prévoyons de rendre les points de contrôle de notre modèle accessibles au public.