مولويني: مجموعة بيانات لقراءة النصوص الآلية قائمة على الحوار متعدد الأطراف مع هيكل تواصلي

شهدت الأبحاث في مجال الحوار متعدد الأطراف نموًا كبيرًا في السنوات الأخيرة. نقدم مجموعة بيانات مولويني (Molweni)، وهي مجموعة بيانات لفهم القراءة الآلية (MRC) تتميز ببنية ترابطية لغوية مبنية على حوارات متعددة الأطراف. تُستمد عينات مصدر مولويني من مجموعة بيانات Ubuntu Chat، وتشمل 10,000 حوارًا مكوّنة من 88,303 تعبيرات. قمنا بتمييز 30,066 سؤالًا على هذه المجموعة، بما في ذلك أسئلة يمكن الإجابة عنها وأخرى لا يمكن الإجابة عنها. كما يُعد مولويني مساهمة فريدة من نوعها من حيث إضافة تسميات للعلاقات الترابطية اللسانيّة بنظام معدل من نظرية التمثيل الترابطي المُقسَّم (SDRT؛ Asher et al., 2016) لجميع حواراته متعددة الأطراف، مما يُسهم في توفير بيانات واسعة النطاق (78,245 علاقة ترابط مُعلّمة) لدعم مهمة تحليل الترابط في حوارات متعددة الأطراف. تُظهر تجاربنا أن مولويني تمثل مجموعة بيانات صعبة للنماذج الحالية لفهم القراءة الآلية: فنموذج BERT-wwm، الذي يُعد من أقوى النماذج في مسابقة SQuAD 2.0، حقق فقط 67.7% في معامل F1 على أسئلة مولويني، ما يمثل انخفاضًا كبيرًا بنسبة أكثر من 20% مقارنةً بأدائه في SQuAD 2.0.