استغلال البيانات الأحادية اللغة على نطاق واسع للترجمة الآلية العصبية

بينما أُثبت أن البيانات أحادية اللغة من جانب الهدف تُعد مفيدة جدًا في تحسين الترجمة الآلية العصبية (والمختصرة بـ NMT) من خلال الترجمة العكسية، فإن البيانات أحادية اللغة من جانب المصدر لم تُدرس بشكل كافٍ. في هذه الدراسة، نستعرض كيفية استخدام البيانات أحادية اللغة من كلا الطرفين (المصدر والهدف) في الترجمة الآلية العصبية، ونُقدّم استراتيجية فعّالة تستفيد من كليهما. أولاً، نُولّد مجموعة نصوص مزدوجة اصطناعية عن طريق ترجمة البيانات أحادية اللغة من كلا المجالين إلى المجال الآخر باستخدام نماذج مُدرّبة مسبقًا على مجموعة نصوص حقيقية مزدوجة. ثانياً، نُدرّب نموذجًا على نسخة مشوّشة من مجموعة النصوص المزدوجة الاصطناعية المُدمجة، حيث يتم تشويش كل تسلسل مصدر عشوائيًا. أخيرًا، نُعدّل النموذج بدقة على مجموعة النصوص الحقيقية المزدوجة، بالإضافة إلى نسخة نظيفة لجزء من النصوص الاصطناعية دون إضافة أي تشويش. تُظهر النتائج تفوق هذه الطريقة على أفضل النتائج المُحققة حتى الآن في مهام الترجمة بين الإنجليزية والألمانية على مجموعات WMT16 وWMT17 وWMT18، وكذلك في مهام الترجمة من الألمانية إلى الفرنسية على WMT19، مما يُثبت فعالية المنهجية المقترحة. كما أجرينا دراسة شاملة لتحليل دور كل جزء في سلسلة المعالجة.