HyperAIHyperAI

Command Palette

Search for a command to run...

共通コーパス大規模オープンテキストデータセット

Discuss on Discord

Common Corpus は大規模なオープンテキスト データセットであり、関連する論文の結果は次のとおりです。共通コーパス:LLM事前トレーニングのための倫理データの最大のコレクションこのデータセットには、知的財産リスクを回避するため、著作権フリーまたは許可されたライセンスのデータのみが含まれています。これは現在、最大のオープンライセンスのテキストデータセットです。

データセットには2兆トークンが含まれており、書籍、科学文献、コード、法務文書などの分野を網羅しています。主要言語は英語とフランス語ですが、100億トークンを超える8言語(ドイツ語、スペイン語、イタリア語など)と10億トークンを超える33言語も含まれています。

データセットのコアサブセット:

  • OpenCulture: パブリック ドメインの書籍、新聞 (Wikisource、Project Gutenberg など)、OCR 修正が施された歴史文書。
  • OpenGovernment: 法的および行政文書 (SEC レポート、WTO 提出書類、欧州議会データなど)。
  • OpenSource: GitHub の高品質コード、ArmoRM ツールによって選別された上位 80% の高品質提出物。
  • OpenScience: 数式やグラフなどの構造化された情報を保持する OpenAlex などの学術リソース。
  • OpenWeb: Wikipedia、YouTube Commons、Stack Exchange などの Web テキスト。
  • OpenSemantic: Wikidata のセマンティック トリプルの自然言語転写。300 以上の言語をサポートします。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています