Common Corpus 大规模开放文本数据集
Common Corpus 是一个大规模开放文本数据集,相关论文成果为:「Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training」。该数据集仅包含无版权或宽松许可数据,规避知识产权风险,是目前规模最大的开放许可文本数据集。
该数据集包含 2 万亿个 token,覆盖书籍、科学文献、代码、法律文档等多领域内容,主语言为英语和法语,还包含 8 种超 100 亿 token 语言(德 / 西 / 意等)和 33 种超 10 亿 token 语言。
数据集核心子集:
- OpenCulture:公共领域书籍、报纸(如 Wikisource 、古登堡计划),含 OCR 校正的历史文献。
- OpenGovernment:法律与行政文档(如 SEC 报告、 WTO 文件、欧洲议会数据)。
- OpenSource:GitHub 高质量代码,经 ArmoRM 工具筛选前 80% 优质提交。
- OpenScience:OpenAlex 等学术资源,保留公式、图表等结构化信息。
- OpenWeb:维基百科、 YouTube Commons 、 Stack Exchange 等网络文本。
- OpenSemantic:Wikidata 语义三元组的自然语言转录,支持 300 + 语言。