CipherDAug: تكثيف البيانات القائمة على النص المشفر للترجمة الآلية العصبية

نُقدِّم تقنية جديدة لتعزيز البيانات في الترجمة الآلية العصبية تعتمد على نصوص مشفرة من نوع ROT-$k$. يُعدُّ ROT-$k$ تشفيرًا بسيطًا يستخدم استبدال الحروف، حيث يتم استبدال حرف في النص الأصلي بالحرف الـ$k$ التالي له في الأبجدية. نبدأ بتكوين عدة نصوص مشفرة من نوع ROT-$k$ باستخدام قيم مختلفة لـ$k$، وذلك بالنسبة للنص الأصلي (الجانب المصدر) في البيانات المتزامنة. ثم نستفيد من هذه البيانات المشفرة مع البيانات المتزامنة الأصلية من خلال تدريب متعدد المصادر، بهدف تحسين أداء الترجمة الآلية العصبية. تُعدُّ طريقة "CipherDAug" التي نقترحها تستخدم إجراء تدريب مستوحى من مبدأ التثبيت المشترك (co-regularization)، ولا تتطلب مصادر بيانات خارجية غير البيانات التدريبية الأصلية، كما تستخدم بنية Transformer القياسية، وتتفوّق بشكل ملحوظ على تقنيات تعزيز البيانات القوية في عدة مجموعات بيانات. وتُعد هذه التقنية سهلة التكامل مع الأساليب الحالية لتعزيز البيانات، وتوفر نتائج قوية بشكل خاص في البيئات ذات الموارد المحدودة.