JaQuAD: مجموعة بيانات الإجابة على الأسئلة اليابانية لفهم القراءة الآلية

يُعدّ التساؤل والإجابة (QA) مهمة في مجال الذكاء الاصطناعي تتمثل في قدرة الآلة على فهم مستند معين وسؤال محدد للعثور على إجابة مناسبة. وعلى الرغم من التقدم الملموس في مجال معالجة اللغة الطبيعية (NLP)، تبقى مهمة التساؤل والإجابة تحديًا كبيرًا، خاصة بالنسبة للغات غير الإنجليزية نظرًا لقلة وجود مجموعات بيانات مُANNOTATED (مُعلّمة). في هذا البحث، نقدّم مجموعة بيانات التساؤل والإجابة اليابانية، المعروفة بـ JaQuAD، والتي تم تسميتها يدويًا. تتكوّن JaQuAD من 39,696 زوجًا مكوّنًا من سؤال وإجابة استخلاصية (extractive) مبنية على مقالات من ويكيبيديا اليابانية. قمنا بتحسين نموذج أساسي (fine-tuning)، حيث حقق أداءً بنسبة 78.92% في مؤشر F1 و63.38% في مؤشر EM على مجموعة الاختبار. تُتاح مجموعة البيانات والتجارب التي أجريناها عبر الرابط التالي: https://github.com/SkelterLabsInc/JaQuAD.