在 Discord 上讨论

日期

1 年前

论文 URL

标签

自然语言处理

Common Corpus 是一个大规模开放文本数据集，相关论文成果为：「Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training」。该数据集仅包含无版权或宽松许可数据，规避知识产权风险，是目前规模最大的开放许可文本数据集。该数据集包含 2 万亿个 token，覆盖书籍、科学文献、代码、法律文档等多领域内容，主语言为英语和法语，还包含 8 种超 100 亿 token 语言（德 / 西 / 意等）和 33 种超 10 亿 token 语言。

数据集核心子集：

OpenCulture：公共领域书籍、报纸（如 Wikisource 、古登堡计划），含 OCR 校正的历史文献。
OpenGovernment：法律与行政文档（如 SEC 报告、 WTO 文件、欧洲议会数据）。
OpenSource：GitHub 高质量代码，经 ArmoRM 工具筛选前 80% 优质提交。
OpenScience：OpenAlex 等学术资源，保留公式、图表等结构化信息。
OpenWeb：维基百科、 YouTube Commons 、 Stack Exchange 等网络文本。
OpenSemantic：Wikidata 语义三元组的自然语言转录，支持 300 + 语言。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供