HyperAI

مجموعة بيانات الكشف عن أخطاء قواعد اللغة الصينية وتصحيحها من FCGEC

التاريخ

منذ عام واحد

الحجم

15.51 MB

المؤسسة

جامعة تشجيانغ

رابط النشر

github.com

الترخيص

非商业用途

FCGEC تعني مجموعة من النصوص الدقيقة لتصحيح الأخطاء النحوية الصينية. وهو عبارة عن مجموعة كبيرة من النصوص المرجعية لتصحيح الأخطاء للمتحدثين الأصليين.  تُستخدم لتدريب وتقييم نظام نموذج تصحيح الأخطاء، والمصدر الرئيسي للبيانات هو أسئلة اختبار الجمل غير الصحيحة لطلاب المدارس الابتدائية والمتوسطة والثانوية ومواقع تجميع الأخبار.

من أجل توفير المزيد من طرق تعديل المراجع للجمل لتحقيق أهداف التوضيح المتنوعة، سيتم تعيين كل جملة بشكل عشوائي إلى 2-4 معلقين للتوضيح.لقد جمعنا 54,026 جملة أصلية من مصدرين للبيانات. بعد إزالة الجمل المكررة وتصفية الجمل الإشكالية (مثل اقتطاع النص)، يحتوي FCGEC على إجمالي 41340 جملة.

FCGEC.torrent
البذر 1التنزيل 1مكتمل 125إجمالي التنزيلات 405
  • FCGEC/
    • README.md
      1.33 KB
    • README.txt
      2.65 KB
      • data/
        • FCGEC_test.json
          815.18 KB
        • FCGEC_train.json
          14.73 MB
        • FCGEC_valid.json
          15.51 MB