Bi-SimCut: استراتيجية بسيطة لتعزيز الترجمة الآلية العصبية

نقدّم Bi-SimCut: استراتيجية تدريب بسيطة ولكنها فعّالة لتعزيز أداء الترجمة الآلية العصبية (NMT). تتكون هذه الاستراتيجية من عمليتين: التدريب المسبق ثنائي الاتجاه والضبط الدقيق أحادي الاتجاه. وتستفيد كلتا العمليتين من تقنية SimCut، وهي طريقة تبسيطية للتنظيم تُجبر التوزيعات الناتجة على التوافق بين الجمل الأصلية والجمل المقطوعة (cutoff sentences). وبلا اعتماد على مجموعات بيانات إضافية عبر عملية الترجمة العكسية (back-translation) أو دمج نماذج مُدرّبة مسبقًا كبيرة الحجم، تحقق Bi-SimCut أداءً قويًا في خمسة معايير ترجمة (تتراوح أحجام البيانات بين 160 ألف و20.2 مليون): Scores مقدارها 31.16 للترجمة من الإنجليزية إلى الألمانية و38.37 للترجمة من الألمانية إلى الإنجليزية على مجموعة بيانات IWSLT14، و30.78 و35.15 على التوالي على مجموعة بيانات WMT14، و27.17 للترجمة من الصينية إلى الإنجليزية على مجموعة بيانات WMT17. إن SimCut ليست طريقة جديدة، بل هي نسخة مبسطة ومُعدّلة من طريقة "القطع" (Cutoff) (Shen et al., 2020) وتم تكييفها لتناسب الترجمة الآلية العصبية، ويمكن اعتبارها منهجًا قائماً على الاضطرابات (perturbation-based). وبما أن SimCut وBi-SimCut يتمتعان بخصائص العُمومية والبساطة، فإننا نعتقد أنهما يمكن أن يشكلا قاعدة معيارية قوية للأبحاث المستقبلية في مجال الترجمة الآلية العصبية.