التنبؤ بالتصنيفات بسهولة محبطة للنقل بين اللغات

ترجمة بيانات التدريب إلى العديد من اللغات ظهرت كحل عملي لتحسين النقل بين اللغات. بالنسبة للمهام التي تتضمن تسميات على مستوى الفواصل، مثل استخراج المعلومات أو الإجابة على الأسئلة، يتطلب الأمر خطوة إضافية لتصحيح التسميات بنقل الفواصل المُشَهَّرة إلى النصوص المترجمة. مؤخرًا، تم استخدام طريقة بسيطة تتمثل في وضع علامات ثم الترجمة لتنفيذ الترجمة والتصحيح معًا عن طريق إدراج علامات خاصة حول الفواصل المُشَهَّرة في الجملة الأصلية. ومع ذلك، حسب علمنا، لم يتم إجراء أي تحليل تجريبي حول كيفية مقارنة هذه الطريقة بالطرق التقليدية للتصحيح المستند إلى محاذاة الكلمات. في هذا البحث، نقدم دراسة تجريبية واسعة النطاق عبر 57 لغة وثلاث مهام (الإجابة على الأسئلة، وتعرف الكيانات الاسمية، واستخراج الأحداث) لتقييم فعالية وحدود كلتا الطريقتين، مما يسد ثغرة مهمة في الأدب العلمي. أظهرت نتائج التجارب أن الإصدار المحسّن من طريقة وضع العلامات ثم الترجمة، والذي نطلق عليه EasyProject (سهولة المشروع)، يمكن تطبيقه بسهولة على العديد من اللغات وأنه يعمل بشكل مفاجئ جيدًا، حيث يتفوق على الطرق المعقدة المستندة إلى محاذاة الكلمات. قمنا بتحليل عدة عوامل رئيسية تؤثر على أداء المهمة النهائية وأظهرنا أن EasyProject يعمل بشكل جيد لأنه يمكنه الحفاظ بدقة على حدود الفواصل المُشَهَّرة بعد الترجمة. سنقوم بإطلاق جميع شفرتنا ومعلوماتنا للجمهور بشكل مجاني.