مجموعة بيانات استخراج المعلومات الصينية واسعة النطاق من DuIE
التاريخ
منذ 3 أعوام
الحجم
242.66 MB
رابط النشر
الترخيص
非商业用途
العلامات
الفئات
DuIE عبارة عن مجموعة بيانات كبيرة الحجم تم شرحها يدويًا ويمكن استخدامها لتقييم خوارزميات استخراج المعرفة القائمة على الهندسة المعمارية.
تحتوي مجموعة البيانات على أكثر من 210,000 جملة صينية حقيقية، تتضمن أكثر من 450,000 ثلاثية SPO (أي ثلاثيات الفاعل والمسند والمفعول به)، وتتكون من بنية محددة مسبقًا و49 مسندًا.
تم استخراج جميع الجمل في هذه المجموعة من البيانات من موسوعة Baidu وبحث Baidu News. تغطي النصوص الموجودة في مجموعة البيانات هذه مجالات مختلفة موجودة في التطبيقات في العالم الحقيقي، مثل الأخبار والترفيه والمحتوى الذي ينشئه المستخدم.
تتكون مجموعة البيانات من البيانات التالية:
- 214,590 حكمًا، منها:
- تم استخدام 172,983 جملة كمجموعة تدريب؛
- 21,626 جملة مخصصة لمجموعة التطوير؛
- تم استخدام 19,981 جملة كمجموعة اختبار.
- 457,866 حالة، منها:
- 363,960 حالة هي مجموعة التدريب؛
- 45,558 حالة هي مجموعة التطوير؛
- يوجد 48,348 حالة في مجموعة الاختبار.
بيانات المثال:

DuIE.torrent
البذر 1التنزيل 1مكتمل 434إجمالي التنزيلات 1,097