Vega-MT: نظام ترجمة JD Explore Academy لـ WMT22

نُقدِّم عرضًا لتقديم أكاديمية JD Explore في مُشاركة مُهمة ضمن مهمة الترجمة المشتركة لعام 2022 التي نظّمها WMT. شاركنا في جميع المسارات عالية الموارد، بالإضافة إلى مسار متوسط الموارد، بما في ذلك الترجمة بين اللغات الصينية-الإنجليزية، الألمانية-الإنجليزية، التشيكية-الإنجليزية، الروسية-الإنجليزية، واليابانية-الإنجليزية. وقد قمنا بتوسيع حدود عملنا السابق من خلال تطوير نموذج تدريب ثنائي الاتجاه، وذلك عبر تكبير عاملين رئيسيين: عدد أزواج اللغات وحجم النموذج، وهو ما أدى إلى تطوير النظام المُسمّى \textbf{Vega-MT}. أما من حيث أزواج اللغات، فقد تم توسيع المفهوم "الثنائي الاتجاه" ليصبح "متعدد الاتجاهات"، بحيث يشمل جميع اللغات المشاركة، بهدف استغلال المعرفة المشتركة بين اللغات ونقلها إلى المهام ثنائية اللغة في المرحلة التالية. أما من حيث حجم النموذج، فقد تم توسيع نموذج Transformer-Big ليصبح نموذجًا ضخمًا جدًا يمتلك ما يقارب 4.7 مليار معلمة، بهدف تعزيز القدرة التعبيرية للنموذج بشكل كامل ضمن نظام Vega-MT. كما استخدمنا استراتيجيات تكبير البيانات، مثل الترجمة الدورية للبيانات الأحادية اللغة، والتدريب الذاتي ثنائي الاتجاه للبيانات ثنائية ومتعددة اللغات، لاستغلال شامل للبيانات الثنائية والأحادية اللغة. ولتكيف نظام Vega-MT مع مجموعة اختبار المجال العام، تم تصميم عملية "ضبط التعميم". وبناءً على النتائج الرسمية التلقائية للأنظمة المقيدة، وباستخدام مقياس sacreBLEU الموضح في الشكل 1، حققنا المركز الأول في المهام التالية: {الصيني-الإنجليزي (33.5)، الإنجليزي-الصيني (49.7)، الألماني-الإنجليزي (33.7)، الإنجليزي-الألماني (37.8)، التشيكية-الإنجليزية (54.9)، الإنجليزي-التشيكية (41.4)، والإنجليزي-الروسي (32.7)}، والمركز الثاني في {الروسي-الإنجليزي (45.1) والياباني-الإنجليزي (25.6)}، والمركز الثالث في {الإنجليزي-الياباني (41.5)}. أما بالنسبة لمقياس COMET، فقد حققنا المركز الأول في: {الصيني-الإنجليزي (45.1)، الإنجليزي-الصيني (61.7)، الألماني-الإنجليزي (58.0)، الإنجليزي-الألماني (63.2)، التشيكية-الإنجليزية (74.7)، الروسي-الإنجليزي (64.9)، الإنجليزي-الروسي (69.6)، والإنجليزي-الياباني (65.1)}، والمركز الثاني في {الإنجليزي-التشيكية (95.3) والياباني-الإنجليزي (40.6)}، على التوالي.