Common Corpus-zh 中文公共领域数据集
Common Corpus 是由 Pleias 、 HuggingFace 等机构联合创建的,是目前规模最大的公共领域数据集,专门用于训练大型语言模型(LLMs)。该数据集汇集了来自全球多样文化遗产项目的 5,000 亿词汇,包括英语、法语、中文、西班牙语、德语和意大利语等多种语言,是目前为止最全面的语言资源库。
它包含有迄今为止最大的英语数据集,其中包括 1,800 亿词汇,包含了美国重要数字化报纸项目 Chronicling America 的 2,100 万份文献,Nomic AI 原创语料库地图,以及 Sebastian Majstorovic 收集的专著数据。此外,Common Corpus 还包含了目前最大的法语(1,100 亿词汇)、德语(300 亿词汇)、西班牙语、荷兰语和意大利语的开放数据集,以及一些在大型语言模型训练中鲜少涉及的低资源语言。
该数据集的推出展示了,即使不依赖于 Common Crawl 等版权受限内容,也能够训练出 LLMs 。其旨在建立一个强大的 AI 数据共享平台,简化研究流程,提高研究的可复制性,推动 AI 的普及、多样性和民主化,确保大型模型的知识传播和应用。
Common-Corpus-zh.torrent
做种 2正在下载 1已完成 67总下载次数 208