HyperAI

Common Corpus は、Pleias、HuggingFace、およびその他の機関によって共同で作成されました。これは現在最大のパブリックドメインデータセットです。大規模言語モデル (LLM) のトレーニング用に特別に設計されています。このデータセットには、世界中のさまざまな文化遺産プロジェクトから 5,000 億語が集められています。英語、フランス語、中国語、スペイン語、ドイツ語、イタリア語、その他の言語を含む、これまでで最も包括的な言語リソースライブラリです。

これには、1,800 億語、米国の重要なデジタル新聞プロジェクトである Chronicling America の 2,100 万件の文書、Nomic AI のオリジナルコーパスマップ、Sebastian Majstorovic が収集したモノグラフデータなど、これまでで最大の英語データセットが含まれています。さらに、共通コーパスには、フランス語 (1,100 億語)、ドイツ語 (300 億語)、スペイン語、オランダ語、イタリア語の最大のオープンデータセットに加え、大規模な言語モデルではほとんどカバーされないいくつかの低レベルのデータセットも含まれています。リソース言語。

このデータセットの開始は、Common Crawl などの著作権で制限されたコンテンツに依存せずに LLM をトレーニングできることを示しています。強力な AI データ共有プラットフォームを確立し、研究プロセスを簡素化し、研究の再現性を向上させ、AI の普及、多様性、民主化を促進し、知識の普及と大規模モデルの適用を確実にすることを目的としています。

Common Corpus-zh 中国語パブリックドメインデータセット