共通コーパス大規模オープンテキストデータセット
Common Corpus は大規模なオープンテキスト データセットであり、関連する論文の結果は次のとおりです。共通コーパス:LLM事前トレーニングのための倫理データの最大のコレクションこのデータセットには、知的財産リスクを回避するため、著作権フリーまたは許可されたライセンスのデータのみが含まれています。これは現在、最大のオープンライセンスのテキストデータセットです。
データセットには2兆トークンが含まれており、書籍、科学文献、コード、法務文書などの分野を網羅しています。主要言語は英語とフランス語ですが、100億トークンを超える8言語(ドイツ語、スペイン語、イタリア語など)と10億トークンを超える33言語も含まれています。
データセットのコアサブセット:
- OpenCulture: パブリック ドメインの書籍、新聞 (Wikisource、Project Gutenberg など)、OCR 修正が施された歴史文書。
- OpenGovernment: 法的および行政文書 (SEC レポート、WTO 提出書類、欧州議会データなど)。
- OpenSource: GitHub の高品質コード、ArmoRM ツールによって選別された上位 80% の高品質提出物。
- OpenScience: 数式やグラフなどの構造化された情報を保持する OpenAlex などの学術リソース。
- OpenWeb: Wikipedia、YouTube Commons、Stack Exchange などの Web テキスト。
- OpenSemantic: Wikidata のセマンティック トリプルの自然言語転写。300 以上の言語をサポートします。