HyperAIHyperAI

Command Palette

Search for a command to run...

مولويني: مجموعة بيانات لقراءة النصوص الآلية قائمة على الحوار متعدد الأطراف مع هيكل تواصلي

Jiaqi Li Ming Liu Min-Yen Kan Zihao Zheng Zekun Wang Wenqiang Lei Ting Liu Bing Qin

الملخص

شهدت الأبحاث في مجال الحوار متعدد الأطراف نموًا كبيرًا في السنوات الأخيرة. نقدم مجموعة بيانات مولويني (Molweni)، وهي مجموعة بيانات لفهم القراءة الآلية (MRC) تتميز ببنية ترابطية لغوية مبنية على حوارات متعددة الأطراف. تُستمد عينات مصدر مولويني من مجموعة بيانات Ubuntu Chat، وتشمل 10,000 حوارًا مكوّنة من 88,303 تعبيرات. قمنا بتمييز 30,066 سؤالًا على هذه المجموعة، بما في ذلك أسئلة يمكن الإجابة عنها وأخرى لا يمكن الإجابة عنها. كما يُعد مولويني مساهمة فريدة من نوعها من حيث إضافة تسميات للعلاقات الترابطية اللسانيّة بنظام معدل من نظرية التمثيل الترابطي المُقسَّم (SDRT؛ Asher et al., 2016) لجميع حواراته متعددة الأطراف، مما يُسهم في توفير بيانات واسعة النطاق (78,245 علاقة ترابط مُعلّمة) لدعم مهمة تحليل الترابط في حوارات متعددة الأطراف. تُظهر تجاربنا أن مولويني تمثل مجموعة بيانات صعبة للنماذج الحالية لفهم القراءة الآلية: فنموذج BERT-wwm، الذي يُعد من أقوى النماذج في مسابقة SQuAD 2.0، حقق فقط 67.7% في معامل F1 على أسئلة مولويني، ما يمثل انخفاضًا كبيرًا بنسبة أكثر من 20% مقارنةً بأدائه في SQuAD 2.0.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp