CCI 中文互联网语料库

日期

1 年前

机构

发布地址

huggingface.co

标签

下载帮助

随着大型语言模型的快速发展,工业界和学术界对高质量数据集的需求不断增长。这些数据集不仅需要包含海量的信息,还需要经过严格的筛选和清洗,以确保其准确性以及下游模型和应用的安全。然而,目前业界流行的公共数据集存在一定的质量和安全风险,尤其是在高质量数据集尤其缺乏的中文领域。此外,构建安全的中文数据集还面临诸多挑战。因此,构建经过严格筛选和标准化处理的数据集对于 LLMs 的创新和发展尤为重要。

中文互联网语料库(Chinese Corpora Internet,简称 CCI)由来自中国大陆互联网网站的高质量、可信任的来源组成。 CCI 经过严格的数据清洗和去重,在内容质量方面进行有针对性的检测和过滤。数据处理规则包括:

  • 基于规则的过滤:基于密度的提取、关键词过滤、垃圾信息过滤、简繁体转换等;
  • 基于模型的过滤:通过训练分类模型来过滤低质量内容;
  • 重复数据删除:数据集内部和数据集之间的重复数据删除。

另外,针对预训练数据规模较大,容易造成评估数据泄露的问题,研究团队在数据处理阶段专门对目前国内主流的几个评估数据集进行了严格的筛选和过滤。

发布的 CCI 语料库 (CCI v1.0.0) 大小为 104 GB 。数据集总体时间跨度为 2001 年 1 月至 2023 年 11 月。