HyperAIHyperAI

مجموعة بيانات نصوص الويب الصينية

التاريخ

منذ 2 أعوام

الحجم

398.86 GB

رابط النشر

huggingface.co

العلامات

ChineseWebText هي أحدث وأكبر مجموعة بيانات صينية، وتحتوي على 1.42 تيرابايت من البيانات.يتم تعيين درجة جودة لكل نص، مما يجعل من الأسهل بالنسبة للباحثين في نماذج اللغة الكبيرة اختيار البيانات بناءً على عتبات الجودة الجديدة. تم هنا أيضًا إصدار مجموعة فرعية أنظف تحتوي على 600 جيجابايت من النص الصيني بجودة أفضل من 90%. يحتوي هذا الدليل على مجموعة بيانات ChineseWebText وسلسلة أدوات EvalWeb لمعالجة بيانات CommonCrawl.

نص الويب الصيني.torrent
البذر 1التنزيل 0مكتمل 167إجمالي التنزيلات 380
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB
مجموعة بيانات نصوص الويب الصينية | مجموعات البيانات | HyperAI