HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA 发布 Nemotron-CC 管道:从通用爬虫数据中生成高质量万亿级标记数据集

NVIDIA NeMo Curator团队最近宣布,用于构建 Nemotron-CC 数据集的流水线已合并至 NeMo Curator 的 GitHub 仓库中。这一数据集包含高达 6.3 万亿个词元的英文数据,是从 Common Crawl(CC)数据集中精选出来的,旨在帮助企业开发者训练高精度的大语言模型(LLMs)。 传统的数据筛选方法依赖大量启发式过滤,这种方法难以评估语义质量,导致大量低质量文本被丢弃。这不仅减少了可用的数据量,而且还限制了模型在复杂推理任务上的准确性,例如多选题(MMLU)。为了解决这一问题,NVIDIA 开发了 Nemotron-CC 流水线,通过结合分类器集成和合成数据重述,实现了质量与数量之间的平衡。 Nemotron-CC 数据处理流程 HTML 文本提取与过滤 此流程首先从 CC 数据集中提取文本,使用 jusText 进行 HTML 解析,并用 FastText 识别英文数据及格式化 Unicode 字符。接下来,进行精确去重和模糊去重,前者通过哈希算法去除完全相同的文档,后者则使用局部敏感哈希(LSH)去除高度相似的文档。NeMo Curator 利用 NVIDIA 的 RAPIDS 库,如 cuDF、cuML 和 cuGraph 以及 Dask,在多节点和多 GPU 环境下扩展工作负载,将文本处理速度提高了 16 倍。 基于模型的质量标签生成 Nemotron-CC 使用了三个不同的质量分类器模型:FastText 质量分类器和两个 NeMo Curator 分类器(FineWeb Mixtral Edu Classifier 和 FineWeb Nemotron-4 Edu Classifier)。这些分类器会根据不同的质量偏好生成分数,将样本分级并分成五个质量层次。通过取所有分类器生成的整数分数中的最大值,来生成一个总体分数,从而提高数据质量的评估精度。 合成数据生成 (SDG) SDG 流程分为两个部分:一是重用自己的有用信息,对于低质量文档,用类似维基百科的提示重新编写文本;二是生成更多独特的预训练词元,对于高质量文档,通过多种方式重述或浓缩文本中的关键知识。具体包括生成多样化的问答对、改写文本使之更加简洁明了、提取有用信息以及列出关键知识点。 实验结果 实验表明,当使用 Llama 3.1 8B 参数模型在 1T 词汇子集上进行训练时,Nemotron-CC 数据集的表现优于 DCLM 数据集,MMLU 得分提高了 5.6 分。而在更长的时间尺度上(15T 词汇),Nemotron-CC 数据集同样表现出色,将 MMLU 得分从 65.3 提高到了 70.3。 业内评价与公司背景 业内专家认为,NVIDIA 的 Nemotron-CC 流水线是一次重要的突破,它不仅显著提高了大语言模型的训练效果,还为数据集的创建提供了新的思路。NVIDIA 作为全球领先的计算技术和系统制造商,一直致力于推动人工智能领域的发展,此次发布的 Nemotron-CC 流水线进一步巩固了其在数据处理和模型训练领域的领先地位。 NeMo Curator 是 NVIDIA 的一个开源工具,专门用于大规模数据的预处理和质量提升,支持 GPU 加速,为企业开发者提供了一种高效、灵活的解决方案,不仅适用于预训练数据集的构建,还可以用于微调数据集。

相关链接