HyperAI超神経

Common Corpus-zh 中国語パブリックドメインデータセット

日付

1年前

サイズ

225.16 MB

組織

ハグフェイス

Common Corpus は、Pleias、HuggingFace、およびその他の機関によって共同で作成されました。これは現在最大のパブリック ドメイン データ セットです。大規模言語モデル (LLM) のトレーニング用に特別に設計されています。このデータセットには、世界中のさまざまな文化遺産プロジェクトから 5,000 億語が集められています。英語、フランス語、中国語、スペイン語、ドイツ語、イタリア語、その他の言語を含む、これまでで最も包括的な言語リソース ライブラリです。

これには、1,800 億語、米国の重要なデジタル新聞プロジェクトである Chronicling America の 2,100 万件の文書、Nomic AI のオリジナル コーパス マップ、Sebastian Majstorovic が収集したモノグラフ データなど、これまでで最大の英語データ セットが含まれています。さらに、共通コーパスには、フランス語 (1,100 億語)、ドイツ語 (300 億語)、スペイン語、オランダ語、イタリア語の最大のオープン データ セットに加え、大規模な言語モデルではほとんどカバーされないいくつかの低レベルのデータ セットも含まれています。リソース言語。

このデータセットの開始は、Common Crawl などの著作権で制限されたコンテンツに依存せずに LLM をトレーニングできることを示しています。強力な AI データ共有プラットフォームを確立し、研究プロセスを簡素化し、研究の再現性を向上させ、AI の普及、多様性、民主化を促進し、知識の普及と大規模モデルの適用を確実にすることを目的としています。

共通コーパス.torrent
シーディング 2ダウンロード中 0ダウンロード完了 88総ダウンロード数 238
  • Common-Corpus-zh/
    • README.md
      1.93 KB
    • README.txt
      3.86 KB
      • data/
        • Chinese-PD.zip
          225.16 MB