Command Palette

Search for a command to run...

SkyPile-150B 包括的な大規模中国データセット

日付

2年前

組織

Discordコミュニティに参加

SkyPile-150B は、大規模な言語モデルの事前トレーニング用に特別に設計された包括的な大規模な中国語データセットです。これは、公的にアクセス可能な多数の中国のインターネット ページに由来しています。データセットは、品質を確保するために、厳密なフィルタリング、広範な重複排除、および機密データの徹底的なフィルタリングを受けます。さらに、研究者は、fastText や BERT などの高度なツールを使用して、低品質のデータを除外します。

SkyPile-150B データセットの公開部分には約 2 億 3,300 万の Web ページが含まれており、各 Web ページには平均 1,000 文字以上の漢字が含まれています。合計で、データセットには約 1,500 億のトークンと 620 GB のプレーン テキスト データが含まれています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています