HyperAIHyperAI

Command Palette

Search for a command to run...

ChineseWebText 中国語 Web テキスト データ セット

ChineseWebText は現在最新かつ最大の中国語データ セットで、1.42 TB のデータが含まれています。各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データ セットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。

ChineseWebText.torrent
Seeding 1Downloading 0Completed 205Total Downloads 471
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ChineseWebText 中国語 Web テキスト データ セット | Datasets | HyperAI超神経