HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات نصوص الويب الصينية

ChineseWebText هي أحدث وأكبر مجموعة بيانات صينية، وتحتوي على 1.42 تيرابايت من البيانات.يتم تعيين درجة جودة لكل نص، مما يجعل من الأسهل بالنسبة للباحثين في نماذج اللغة الكبيرة اختيار البيانات بناءً على عتبات الجودة الجديدة. تم هنا أيضًا إصدار مجموعة فرعية أنظف تحتوي على 600 جيجابايت من النص الصيني بجودة أفضل من 90%. يحتوي هذا الدليل على مجموعة بيانات ChineseWebText وسلسلة أدوات EvalWeb لمعالجة بيانات CommonCrawl.

ChineseWebText.torrent
Seeding 1Downloading 0Completed 205Total Downloads 471
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة بيانات نصوص الويب الصينية | Datasets | HyperAI