BERT، mBERT، أم BiBERT؟ دراسة حول التضمينات المُحتَفَظة بالسياق للترجمة الآلية العصبية

إن النجاح الذي حققته نماذج الترميز الثنائية المستخدمة في نماذج اللغة المُقنّعة، مثل BERT، في العديد من مهام معالجة اللغة الطبيعية، دفع الباحثين إلى محاولة دمج هذه النماذج المُدرّبة مسبقًا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الطرق المقترحة لدمج النماذج المُدرّبة مسبقًا ليست بسيطة، وتركز بشكل رئيسي على BERT، مما يفتقر إلى مقارنة تأثير النماذج المُدرّبة مسبقًا الأخرى على أداء الترجمة. في هذا البحث، نُظهر أن استخدام مخرجات نموذج لغة ثنائي المُدرّب مسبقًا مُعدّلًا ومناسبًا (يُسمّى BiBERT) — أي التمثيلات السياقية (contextualized embeddings) — كمدخل لمشغل الترميز في نظام الترجمة الآلية العصبية، يُحقق أداءً متقدمًا على مستوى الدولة (state-of-the-art). علاوةً على ذلك، نقترح أيضًا منهجية اختيار عشوائي للطبقات (stochastic layer selection) ومفهوم نموذج ترجمة ثنائي الاتجاه (dual-directional translation model) لضمان الاستخدام الكافي للتمثيلات السياقية. وفي الحالة التي لا تُستخدم فيها تقنية الترجمة العكسية (back translation)، تحقق أفضل نماذجنا مقاييس BLEU قدرها 30.45 للترجمة من الإنجليزية إلى الألمانية، و38.61 للترجمة من الألمانية إلى الإنجليزية على مجموعة بيانات IWSLT'14، و31.26 للترجمة من الإنجليزية إلى الألمانية، و34.94 للترجمة من الألمانية إلى الإنجليزية على مجموعة بيانات WMT'14، وهي أرقام تفوق جميع الأرقام المنشورة سابقًا.