HyperAI超神经

Common Corpus 是由 Pleias 、 HuggingFace 等机构联合创建的，是目前规模最大的公共领域数据集，专门用于训练大型语言模型（LLMs）。该数据集汇集了来自全球多样文化遗产项目的 5,000 亿词汇，包括英语、法语、中文、西班牙语、德语和意大利语等多种语言，是目前为止最全面的语言资源库。

它包含有迄今为止最大的英语数据集，其中包括 1,800 亿词汇，包含了美国重要数字化报纸项目 Chronicling America 的 2,100 万份文献，Nomic AI 原创语料库地图，以及 Sebastian Majstorovic 收集的专著数据。此外，Common Corpus 还包含了目前最大的法语（1,100 亿词汇）、德语（300 亿词汇）、西班牙语、荷兰语和意大利语的开放数据集，以及一些在大型语言模型训练中鲜少涉及的低资源语言。

该数据集的推出展示了，即使不依赖于 Common Crawl 等版权受限内容，也能够训练出 LLMs 。其旨在建立一个强大的 AI 数据共享平台，简化研究流程，提高研究的可复制性，推动 AI 的普及、多样性和民主化，确保大型模型的知识传播和应用。

Common Corpus-zh 中文公共领域数据集

用 AI 构建 AI

Hyper Newsletters

Command Palette

Common Corpus-zh 中文公共领域数据集

用 AI 构建 AI

Hyper Newsletters