Vega-MT : Le système de traduction de l'Académie JD Explore pour WMT22

Nous décrivons la soumission de l’Académie JD Explore pour la tâche partagée de traduction générale du WMT 2022. Nous avons participé à toutes les pistes à fort ressources ainsi qu’à une piste à ressources moyennes, incluant les paires linguistiques chinois-anglais, allemand-anglais, tchèque-anglais, russe-anglais et japonais-anglais. Nous avons poussé les limites de nos travaux antérieurs — l’entraînement bidirectionnel pour la traduction — en élargissant deux facteurs principaux : le nombre de paires linguistiques et la taille des modèles, ce qui a conduit au système Vega-MT. En ce qui concerne les paires linguistiques, nous avons étendu le cadre « bidirectionnel » vers un cadre « multidirectionnel », couvrant toutes les langues participantes, afin d’exploiter les connaissances communes entre les langues et de les transférer vers les tâches binaires descendantes. En ce qui concerne la taille des modèles, nous avons mis à l’échelle le Transformer-Big jusqu’à un modèle extrêmement grand, comprenant près de 4,7 milliards de paramètres, afin d’optimiser pleinement la capacité du modèle pour Vega-MT. Par ailleurs, nous avons adopté des stratégies d’augmentation de données, telles que la traduction cyclique sur les données monolingues, ainsi que l’auto-entraînement bidirectionnel sur les données bilingualles et monolingues, afin d’exploiter de manière exhaustive les données bilinguales et monolingues. Pour adapter notre système Vega-MT au jeu de test du domaine général, une phase de réglage de généralisation a été conçue. Sur la base des scores automatiques officiels des systèmes contraints, et en termes de sacreBLEU illustré à la Figure 1, nous avons obtenu la 1re place pour les paires {Zh-En (33,5), En-Zh (49,7), De-En (33,7), En-De (37,8), Cs-En (54,9), En-Cs (41,4) et En-Ru (32,7)}, la 2e place pour {Ru-En (45,1) et Ja-En (25,6)}, et la 3e place pour {En-Ja (41,5)} ; quant au COMET, nous avons obtenu la 1re place pour {Zh-En (45,1), En-Zh (61,7), De-En (58,0), En-De (63,2), Cs-En (74,7), Ru-En (64,9), En-Ru (69,6) et En-Ja (65,1)}, ainsi que la 2e place pour {En-Cs (95,3) et Ja-En (40,6)}.