Command Palette

Search for a command to run...

共通コーパス大規模オープンテキストデータセット

日付

5ヶ月前

論文URL

arxiv.org

Discordコミュニティに参加

Common Corpus は大規模なオープンテキスト データセットであり、関連する論文の結果は次のとおりです。共通コーパス:LLM事前トレーニングのための倫理データの最大のコレクションこのデータセットには、知的財産リスクを回避するため、著作権フリーまたは許可されたライセンスのデータのみが含まれています。これは現在、最大のオープンライセンスのテキストデータセットです。

データセットには2兆トークンが含まれており、書籍、科学文献、コード、法務文書などの分野を網羅しています。主要言語は英語とフランス語ですが、100億トークンを超える8言語(ドイツ語、スペイン語、イタリア語など)と10億トークンを超える33言語も含まれています。

データセットのコアサブセット:

  • OpenCulture: パブリック ドメインの書籍、新聞 (Wikisource、Project Gutenberg など)、OCR 修正が施された歴史文書。
  • OpenGovernment: 法的および行政文書 (SEC レポート、WTO 提出書類、欧州議会データなど)。
  • OpenSource: GitHub の高品質コード、ArmoRM ツールによって選別された上位 80% の高品質提出物。
  • OpenScience: 数式やグラフなどの構造化された情報を保持する OpenAlex などの学術リソース。
  • OpenWeb: Wikipedia、YouTube Commons、Stack Exchange などの Web テキスト。
  • OpenSemantic: Wikidata のセマンティック トリプルの自然言語転写。300 以上の言語をサポートします。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています