HyperAIHyperAI
منذ 3 أشهر

CipherDAug: تكثيف البيانات القائمة على النص المشفر للترجمة الآلية العصبية

Nishant Kambhatla, Logan Born, Anoop Sarkar
CipherDAug: تكثيف البيانات القائمة على النص المشفر للترجمة الآلية العصبية
الملخص

نُقدِّم تقنية جديدة لتعزيز البيانات في الترجمة الآلية العصبية تعتمد على نصوص مشفرة من نوع ROT-$k$. يُعدُّ ROT-$k$ تشفيرًا بسيطًا يستخدم استبدال الحروف، حيث يتم استبدال حرف في النص الأصلي بالحرف الـ$k$ التالي له في الأبجدية. نبدأ بتكوين عدة نصوص مشفرة من نوع ROT-$k$ باستخدام قيم مختلفة لـ$k$، وذلك بالنسبة للنص الأصلي (الجانب المصدر) في البيانات المتزامنة. ثم نستفيد من هذه البيانات المشفرة مع البيانات المتزامنة الأصلية من خلال تدريب متعدد المصادر، بهدف تحسين أداء الترجمة الآلية العصبية. تُعدُّ طريقة "CipherDAug" التي نقترحها تستخدم إجراء تدريب مستوحى من مبدأ التثبيت المشترك (co-regularization)، ولا تتطلب مصادر بيانات خارجية غير البيانات التدريبية الأصلية، كما تستخدم بنية Transformer القياسية، وتتفوّق بشكل ملحوظ على تقنيات تعزيز البيانات القوية في عدة مجموعات بيانات. وتُعد هذه التقنية سهلة التكامل مع الأساليب الحالية لتعزيز البيانات، وتوفر نتائج قوية بشكل خاص في البيئات ذات الموارد المحدودة.