HyperAI

مجموعة بيانات نصوص الويب الصينية

التاريخ

منذ عام واحد

الحجم

398.86 GB

رابط النشر

huggingface.co

العلامات

ChineseWebText هي أحدث وأكبر مجموعة بيانات صينية، وتحتوي على 1.42 تيرابايت من البيانات.يتم تعيين درجة جودة لكل نص، مما يجعل من الأسهل بالنسبة للباحثين في نماذج اللغة الكبيرة اختيار البيانات بناءً على عتبات الجودة الجديدة. تم هنا أيضًا إصدار مجموعة فرعية أنظف تحتوي على 600 جيجابايت من النص الصيني بجودة أفضل من 90%. يحتوي هذا الدليل على مجموعة بيانات ChineseWebText وسلسلة أدوات EvalWeb لمعالجة بيانات CommonCrawl.

ChineseWebText.torrent
البذر 1التنزيل 1مكتمل 103إجمالي التنزيلات 279
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB