HyperAI

مجموعة بيانات المصطلحات الصينية واسعة النطاق ChID

التاريخ

منذ عام واحد

الحجم

328.62 MB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

بسبب الافتقار إلى مجموعات غنية من النصوص، فإن الأبحاث حول فهم القراءة الصينية القائمة على الاختصارات لا تزال محدودة. ChID (مجموعة بيانات التعابير الاصطلاحية الصينية) عبارة عن مجموعة بيانات اختبارية واسعة النطاق تستخدم لدراسة فهم التعابير الاصطلاحية، وهي ظاهرة لغوية فريدة من نوعها في اللغة الصينية. في هذه المجموعة، يتم استبدال العبارات الاصطلاحية في المقالات برموز فارغة، ويجب اختيار الإجابات الصحيحة من العبارات الاصطلاحية المرشحة المصممة بعناية.

تحتوي مجموعة البيانات على 581 ألف فقرة و729 ألف فراغ، وتغطي مجالات متعددة. في ChID، يتم استبدال العبارات الاصطلاحية في الفقرات بمسافات بيضاء. بالنسبة لكل فراغ، يتم توفير قائمة من العبارات المرشحة بما في ذلك العبارة الذهبية كخيار.

ChID.torrent
البذر 2التنزيل 0مكتمل 129إجمالي التنزيلات 151
  • ChID/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • chid.zip
          328.62 MB