HyperAI超神经

Common Corpus 大规模开放文本数据集

日期

7 days ago

发布地址

huggingface.co

下载帮助

Common Corpus 是一个大规模开放文本数据集,相关论文成果为:「Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training」。该数据集仅包含无版权或宽松许可数据,规避知识产权风险,是目前规模最大的开放许可文本数据集。

该数据集包含 2 万亿个 token,覆盖书籍、科学文献、代码、法律文档等多领域内容,主语言为英语和法语,还包含 8 种超 100 亿 token 语言(德 / 西 / 意等)和 33 种超 10 亿 token 语言。

数据集核心子集:

  • OpenCulture:公共领域书籍、报纸(如 Wikisource 、古登堡计划),含 OCR 校正的历史文献。
  • OpenGovernment:法律与行政文档(如 SEC 报告、 WTO 文件、欧洲议会数据)。
  • OpenSource:GitHub 高质量代码,经 ArmoRM 工具筛选前 80% 优质提交。
  • OpenScience:OpenAlex 等学术资源,保留公式、图表等结构化信息。
  • OpenWeb:维基百科、 YouTube Commons 、 Stack Exchange 等网络文本。
  • OpenSemantic:Wikidata 语义三元组的自然语言转录,支持 300 + 语言。