HyperAIHyperAI

Command Palette

Search for a command to run...

UQuAD1.0: تطوير بيانات تدريب للإجابة عن الأسئلة باللغة الأوردية لفهم القراءة الآلية

Samreen Kazi Shakeel Khoja

الملخص

في السنوات الأخيرة، حققت مهمة قراءة الآلة ذات الموارد المحدودة (MRC) تقدماً ملحوظاً، حيث أظهرت النماذج أداءً متميزاً على مجموعة متنوعة من مجموعات البيانات اللغوية. ومع ذلك، لم يتم تخصيص أي من هذه النماذج للغة الأوردو. تتناول هذه الدراسة إنشاء نموذج نصف تلقائي لمجموعة بيانات الأسئلة والأجوبة باللغة الأوردو (UQuAD1.0)، وذلك من خلال دمج ترجمة آلية لبيانات SQuAD مع عينات تم إنشاؤها يدوياً مستمدة من مقالات ويكيبيديا وتمارين قراءة نصية من كتب الشهادة المتوسطة (O-level) الصادرة عن جامعة كامبريدج. تم إنشاء UQuAD1.0، وهي مجموعة بيانات كبيرة باللغة الأوردو مخصصة للمهام الاستخراجية لقراءة الآلة، وتتكون من 49,000 زوجاً من الأسئلة والإجابات بصيغة السؤال، والنص، والإجابة. في UQuAD1.0، تم إنشاء 45,000 زوجاً من الأسئلة والإجابات عبر ترجمة آلية للنسخة الأصلية من SQuAD1.0، وحوالي 4,000 زوجاً عبر توظيف جماعي (crowdsourcing). في هذه الدراسة، استخدمنا نوعين من نماذج قراءة الآلة: نموذج أساسي يعتمد على القواعد، ونماذج متقدمة تعتمد على معمارية Transformer. ومع ذلك، اتضح أن النماذج الثانية تتفوق على الأولى؛ لذا قررنا التركيز حصراً على الهياكل القائمة على Transformer. وباستخدام نموذج XLMRoBERTa ونموذج BERT متعدد اللغات، تم تحقيق معدل F1 بلغ 0.66 و0.63 على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp