HyperAI超神经

NVIDIA NeMo Curator团队最近宣布，用于构建 Nemotron-CC 数据集的流水线已合并至 NeMo Curator 的 GitHub 仓库中。这一数据集包含高达 6.3 万亿个词元的英文数据，是从 Common Crawl（CC）数据集中精选出来的，旨在帮助企业开发者训练高精度的大语言模型（LLMs）。传统的数据筛选方法依赖大量启发式过滤，这种方法难以评估语义质量，导致大量低质量文本被丢弃。这不仅减少了可用的数据量，而且还限制了模型在复杂推理任务上的准确性，例如多选题（MMLU）。为了解决这一问题，NVIDIA 开发了 Nemotron-CC 流水线，通过结合分类器集成和合成数据重述，实现了质量与数量之间的平衡。 Nemotron-CC 数据处理流程 HTML 文本提取与过滤此流程首先从 CC 数据集中提取文本，使用 jusText 进行 HTML 解析，并用 FastText 识别英文数据及格式化 Unicode 字符。接下来，进行精确去重和模糊去重，前者通过哈希算法去除完全相同的文档，后者则使用局部敏感哈希（LSH）去除高度相似的文档。NeMo Curator 利用 NVIDIA 的 RAPIDS 库，如 cuDF、cuML 和 cuGraph 以及 Dask，在多节点和多 GPU 环境下扩展工作负载，将文本处理速度提高了 16 倍。基于模型的质量标签生成 Nemotron-CC 使用了三个不同的质量分类器模型：FastText 质量分类器和两个 NeMo Curator 分类器（FineWeb Mixtral Edu Classifier 和 FineWeb Nemotron-4 Edu Classifier）。这些分类器会根据不同的质量偏好生成分数，将样本分级并分成五个质量层次。通过取所有分类器生成的整数分数中的最大值，来生成一个总体分数，从而提高数据质量的评估精度。合成数据生成 (SDG) SDG 流程分为两个部分：一是重用自己的有用信息，对于低质量文档，用类似维基百科的提示重新编写文本；二是生成更多独特的预训练词元，对于高质量文档，通过多种方式重述或浓缩文本中的关键知识。具体包括生成多样化的问答对、改写文本使之更加简洁明了、提取有用信息以及列出关键知识点。实验结果实验表明，当使用 Llama 3.1 8B 参数模型在 1T 词汇子集上进行训练时，Nemotron-CC 数据集的表现优于 DCLM 数据集，MMLU 得分提高了 5.6 分。而在更长的时间尺度上（15T 词汇），Nemotron-CC 数据集同样表现出色，将 MMLU 得分从 65.3 提高到了 70.3。业内评价与公司背景业内专家认为，NVIDIA 的 Nemotron-CC 流水线是一次重要的突破，它不仅显著提高了大语言模型的训练效果，还为数据集的创建提供了新的思路。NVIDIA 作为全球领先的计算技术和系统制造商，一直致力于推动人工智能领域的发展，此次发布的 Nemotron-CC 流水线进一步巩固了其在数据处理和模型训练领域的领先地位。 NeMo Curator 是 NVIDIA 的一个开源工具，专门用于大规模数据的预处理和质量提升，支持 GPU 加速，为企业开发者提供了一种高效、灵活的解决方案，不仅适用于预训练数据集的构建，还可以用于微调数据集。

相关链接

相关链接

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

Command Palette

NVIDIA 发布 Nemotron-CC 管道：从通用爬虫数据中生成高质量万亿级标记数据集

相关链接

Command Palette

NVIDIA 发布 Nemotron-CC 管道：从通用爬虫数据中生成高质量万亿级标记数据集

相关链接

Command Palette

NVIDIA 发布 Nemotron-CC 管道：从通用爬虫数据中生成高质量万亿级标记数据集

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新