Command Palette

Search for a command to run...

Common Corpus-zh 中国語パブリックドメインデータセット

日付

2年前

サイズ

225.16 MB

組織

ハグフェイス

Common Corpus は、Pleias、HuggingFace、およびその他の機関によって共同で作成されました。これは現在最大のパブリック ドメイン データ セットです。大規模言語モデル (LLM) のトレーニング用に特別に設計されています。このデータセットには、世界中のさまざまな文化遺産プロジェクトから 5,000 億語が集められています。英語、フランス語、中国語、スペイン語、ドイツ語、イタリア語、その他の言語を含む、これまでで最も包括的な言語リソース ライブラリです。

これには、1,800 億語、米国の重要なデジタル新聞プロジェクトである Chronicling America の 2,100 万件の文書、Nomic AI のオリジナル コーパス マップ、Sebastian Majstorovic が収集したモノグラフ データなど、これまでで最大の英語データ セットが含まれています。さらに、共通コーパスには、フランス語 (1,100 億語)、ドイツ語 (300 億語)、スペイン語、オランダ語、イタリア語の最大のオープン データ セットに加え、大規模な言語モデルではほとんどカバーされないいくつかの低レベルのデータ セットも含まれています。リソース言語。

このデータセットの開始は、Common Crawl などの著作権で制限されたコンテンツに依存せずに LLM をトレーニングできることを示しています。強力な AI データ共有プラットフォームを確立し、研究プロセスを簡素化し、研究の再現性を向上させ、AI の普及、多様性、民主化を促進し、知識の普及と大規模モデルの適用を確実にすることを目的としています。

Common-Corpus-zh.torrent
シーディング 2ダウンロード中 0ダウンロード完了 124総ダウンロード数 336
  • Common-Corpus-zh/
    • README.md
      1.93 KB
    • README.txt
      3.86 KB
      • data/
        • Chinese-PD.zip
          225.16 MB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています