Vega-MT: Das Übersetzungssystem der JD Explore Academy für WMT22

Wir beschreiben die Einreichung der JD Explore Academy für die gemeinsame Übersetzungs-Aufgabe des WMT 2022. Wir nahmen an allen Hochressourcen-Tracks und einem Medium-Resourcen-Track teil, darunter Chinesisch-Englisch, Deutsch-Englisch, Tschechisch-Englisch, Russisch-Englisch sowie Japanisch-Englisch. Wir erweitern die Grenzen unseres vorherigen Ansatzes – die bidirektionale Trainingsschulung für Übersetzung – durch eine Skalierung zweier zentraler Faktoren: der Anzahl der Sprachpaare und der Modellgröße, was zur Entwicklung des \textbf{Vega-MT}-Systems führte. In Bezug auf die Sprachpaare erweitern wir das Konzept der „bidirektionalen“ auf ein „multidirektionales“ Setup, das alle teilnehmenden Sprachen umfasst, um gemeinsames sprachliches Wissen auszunutzen und dieses auf nachgeschaltete bilingualen Aufgaben zu übertragen. Hinsichtlich der Modellgröße skalieren wir das Transformer-Big auf ein äußerst großes Modell mit fast 4,7 Milliarden Parametern, um die Modellkapazität von Vega-MT vollständig auszuschöpfen. Zudem setzen wir Datenverstärkungsstrategien ein, wie z. B. Zyklus-Übersetzung für monolinguale Daten sowie bidirektionales Selbsttraining für sowohl bilinguale als auch monolinguale Daten, um die vorhandenen Datenressourcen umfassend auszunutzen. Um unser Vega-MT-System an den allgemeinen Domänen-Testdatensatz anzupassen, wurde eine Generalisierungstuning-Strategie entwickelt. Basierend auf den offiziellen automatischen Bewertungsergebnissen der eingeschränkten Systeme erzielten wir bei der sacreBLEU-Metrik (siehe Abbildung 1) den ersten Platz für {Zh-En (33,5), En-Zh (49,7), De-En (33,7), En-De (37,8), Cs-En (54,9), En-Cs (41,4) und En-Ru (32,7)}, den zweiten Platz für {Ru-En (45,1) und Ja-En (25,6)} sowie den dritten Platz für {En-Ja (41,5)}. In Bezug auf COMET erreichten wir den ersten Platz für {Zh-En (45,1), En-Zh (61,7), De-En (58,0), En-De (63,2), Cs-En (74,7), Ru-En (64,9), En-Ru (69,6) und En-Ja (65,1)}, den zweiten Platz für {En-Cs (95,3) und Ja-En (40,6)}.