HyperAI

مجموعة بيانات استخراج المعلومات الصينية واسعة النطاق من DuIE

التاريخ

منذ 3 أعوام

الحجم

242.66 MB

المؤسسة

بايدو

رابط النشر

ai.baidu.com

الترخيص

非商业用途

DuIE عبارة عن مجموعة بيانات كبيرة الحجم تم شرحها يدويًا ويمكن استخدامها لتقييم خوارزميات استخراج المعرفة القائمة على الهندسة المعمارية.

تحتوي مجموعة البيانات على أكثر من 210,000 جملة صينية حقيقية، تتضمن أكثر من 450,000 ثلاثية SPO (أي ثلاثيات الفاعل والمسند والمفعول به)، وتتكون من بنية محددة مسبقًا و49 مسندًا.

تم استخراج جميع الجمل في هذه المجموعة من البيانات من موسوعة Baidu وبحث Baidu News. تغطي النصوص الموجودة في مجموعة البيانات هذه مجالات مختلفة موجودة في التطبيقات في العالم الحقيقي، مثل الأخبار والترفيه والمحتوى الذي ينشئه المستخدم.

تتكون مجموعة البيانات من البيانات التالية:

  • 214,590 حكمًا، منها:
    • تم استخدام 172,983 جملة كمجموعة تدريب؛
    • 21,626 جملة مخصصة لمجموعة التطوير؛
    • تم استخدام 19,981 جملة كمجموعة اختبار.
  • 457,866 حالة، منها:
    • 363,960 حالة هي مجموعة التدريب؛
    • 45,558 حالة هي مجموعة التطوير؛
    • يوجد 48,348 حالة في مجموعة الاختبار.

بيانات المثال:

DuIE.torrent
البذر 1التنزيل 1مكتمل 434إجمالي التنزيلات 1,097
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB