مجموعة بيانات نصوص الويب الصينية
التاريخ
منذ عام واحد
الحجم
398.86 GB
رابط النشر
العلامات
ChineseWebText هي أحدث وأكبر مجموعة بيانات صينية، وتحتوي على 1.42 تيرابايت من البيانات.يتم تعيين درجة جودة لكل نص، مما يجعل من الأسهل بالنسبة للباحثين في نماذج اللغة الكبيرة اختيار البيانات بناءً على عتبات الجودة الجديدة. تم هنا أيضًا إصدار مجموعة فرعية أنظف تحتوي على 600 جيجابايت من النص الصيني بجودة أفضل من 90%. يحتوي هذا الدليل على مجموعة بيانات ChineseWebText وسلسلة أدوات EvalWeb لمعالجة بيانات CommonCrawl.
ChineseWebText.torrent
البذر 1التنزيل 1مكتمل 103إجمالي التنزيلات 279