UQuAD1.0: تطوير بيانات تدريب للإجابة عن الأسئلة باللغة الأوردية لفهم القراءة الآلية

في السنوات الأخيرة، حققت مهمة قراءة الآلة ذات الموارد المحدودة (MRC) تقدماً ملحوظاً، حيث أظهرت النماذج أداءً متميزاً على مجموعة متنوعة من مجموعات البيانات اللغوية. ومع ذلك، لم يتم تخصيص أي من هذه النماذج للغة الأوردو. تتناول هذه الدراسة إنشاء نموذج نصف تلقائي لمجموعة بيانات الأسئلة والأجوبة باللغة الأوردو (UQuAD1.0)، وذلك من خلال دمج ترجمة آلية لبيانات SQuAD مع عينات تم إنشاؤها يدوياً مستمدة من مقالات ويكيبيديا وتمارين قراءة نصية من كتب الشهادة المتوسطة (O-level) الصادرة عن جامعة كامبريدج. تم إنشاء UQuAD1.0، وهي مجموعة بيانات كبيرة باللغة الأوردو مخصصة للمهام الاستخراجية لقراءة الآلة، وتتكون من 49,000 زوجاً من الأسئلة والإجابات بصيغة السؤال، والنص، والإجابة. في UQuAD1.0، تم إنشاء 45,000 زوجاً من الأسئلة والإجابات عبر ترجمة آلية للنسخة الأصلية من SQuAD1.0، وحوالي 4,000 زوجاً عبر توظيف جماعي (crowdsourcing). في هذه الدراسة، استخدمنا نوعين من نماذج قراءة الآلة: نموذج أساسي يعتمد على القواعد، ونماذج متقدمة تعتمد على معمارية Transformer. ومع ذلك، اتضح أن النماذج الثانية تتفوق على الأولى؛ لذا قررنا التركيز حصراً على الهياكل القائمة على Transformer. وباستخدام نموذج XLMRoBERTa ونموذج BERT متعدد اللغات، تم تحقيق معدل F1 بلغ 0.66 و0.63 على التوالي.