斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当

2 年前

资讯

人们对 AI 模型的关注高热不下，关于 Scaling Laws 的争论也愈发热烈。

OpenAI 于 2020 年在论文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws，它被看作是大语言模型的摩尔定律。其释义可简要总结为：随着模型大小、数据集大小、（用于训练的）计算浮点数的增加，模型的性能会提高。

在 Scaling Laws 的影响下，不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂，更加依赖于大型、多样化的语料数据集。

对此，清华大学计算机系博士秦禹嘉指出，「LLaMA 3 告诉大家一个悲观的现实：模型架构不用动，把数据量从 2T 加到 15T 就可以暴力出奇迹。这一方面告诉大家基座模型长期来看就是大厂的机会；另一方面，考虑到 Scaling Laws 的边际效应，我们想继续看到下一代模型能够有 GPT3 到 GPT4 的提升，很可能需要再洗出至少 10 个数量级的数据（例如 150T）」。

针对语言模型训练所需数据量持续提升，以及数据质量等问题，华盛顿大学、斯坦福大学、苹果等 23 所机构联手，提出了一个实验测试平台 DataComp for Language Models (DCLM)，其核心是来自 Common Crawl 的 240T 新候选词库，通过固定训练代码，鼓励研究人员提出新的训练集来进行创新，对于语言模型的训练集改进具有重大意义。

相关研究已经以「DataComp-LM: In search of the next generation of training sets for language models」为题，发表于学术平台 http://arXiv.org 上。

研究亮点

* DCLM 基准测试的参与者，可以在 412M 到 7B 参数的模型尺度上试验数据管理策略

* 基于模型的过滤是构建高质量训练集的关键，生成的数据集 DCLM-BASELINE 支持使用 2.6T 训练 tokens 在 MMLU 上从头开始训练 7B 参数语言模型，达到 64% 的 5-shot 准确性

* DCLM 的基础模型在 MMLU 上与 Mistral-7B-v0.3 和 Llama3 8B 表现相当

论文地址：
https://arxiv.org/pdf/2406.11794v3
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：
https://github.com/hyperai/awesome-ai4s

DCLM 基准：从 400M 到 7B 多尺度设计，实现不同计算规模需求

DCLM 是一个用于改进语言模型的数据集实验平台，是语言模型训练数据管理的第一个基准。

如下图所示，DCLM 的工作流主要由 4 个步骤构成：选择计算规模 (Select a scale) 、建立数据集 (Build a dataset) 、训练模型 (Train a model) 、基于 53 个下游任务上进行模型评估 (Evaluate) 。

选择计算规模

首先，在计算规模方面，研究人员创建了跨越 3 个数量级计算规模的 5 个不同竞赛级别。每个级别（即 400M-1x 、 1B-1x 、 1B-5x 、 7B-1x 和 7B-2x）指定了模型参数量（例如 7B）和一个 Chinchilla 乘数（例如 1x）。每个规模的训练 tokens 数是参数数量的 20 倍乘以 Chinchilla 乘数。

建立数据集

其次，确定参数规模后，在建立数据集的过程中，参与者可以通过过滤 (Filter) 或混合 (Mix) 数据来创建数据集。

在过滤轨道 (Filtering track) 中，研究人员从未经过滤的爬虫网站 Common Crawl 上提取了 240T tokens 的标准化语料库，构建了 DCLM-Pool，并根据计算规模划分了 5 个数据池。参与者提出算法，并从数据池中选择训练数据。

在混合轨道 (Mix track) 中，参与者可以从多个来源自由组合数据。例如，合成来自 DCLM-Pool 、自定义爬取的数据、 Stack Overflow 和维基百科的数据文档。

训练模型

OpenLM 是一个以 PyTorch 为基础的代码库，专注于 FSDP 模块进行分布式训练。为了排除数据集干扰的影响，研究人员在每个数据规模上使用固定的方法进行模型训练。

基于之前对模型架构和训练的消融研究，研究人员采用像 GPT-2 、 Llama 这样的仅解码器的 Transformer 架构，最终在 OpenLM 中进行模型训练。

模型评估

最后，研究人员通过 LLM-Foundry 工作流程，以 53 个适合基础模型评估的下游任务为标准，进行了模型评估。这些下游任务包含了问答、开放式生成的形式，涵盖了编码、教科书知识和常识推理等各种领域。

为了评估数据整理算法，研究人员主要关注 3 个性能指标：MMLU 5-shot 准确率、 CORE 中心准确率、 EXTENDED 中心准确率。

数据集：使用 DCLM 构建高质量的训练数据集

DCLM 是如何构建高质量数据集 DCLM-BASELINE，并量化数据管理方法的效果的呢？

在启发式数据清洗 (Heuristic cleaning ) 阶段，研究人员使用 RefinedWeb 的方法进行数据清洗，具体操作包括移除 URL (URL filter) 、英文过滤 (English filter) 、页面长度过滤 (Page length filter) 、重复内容过滤 (Repetition filter) 等。

在重复数据删除 (Deduplication) 阶段，研究人员使用 Bloom 过滤器对提取到的文本数据进行重复数据的删除，同时还发现，修改后的 Bloom 过滤器更容易扩展到 10TB 的数据集。

为进一步提高数据的质量，在基于模型的过滤 (Model-based filtering) 阶段，研究人员比较了 7 种基于模型的过滤方式，包括使用 PageRank 得分进行过滤、语义去重（SemDedup）、 fastText 二元分类器等，发现基于 fastText 的过滤优于所有其他方法。

随后，研究人员利用文本分类消融实验 (Text classifier ablations)，进一步研究了基于 fastText 进行数据过滤的局限性。研究人员训练了多个不同的变体，探索了参考数据、特征空间和过滤阈值的不同选择，如下图所示。对于参考数据，研究人员选择了常用的 Wikipedia 、 OpenWebText2 、 RedPajama-books，这些都是 GPT-3 使用的参考数据。

同时，研究人员还创新性地使用了指令格式的数据，从 OpenHermes 2.5 (OH-2.5) 和 r/ExplainLikeImFive (ELI5) subreddit 的高分帖子中提取示例。结果显示，OH-2.5 + ELI5 的方法相较常用参考数据，在 CORE 上提升了 3.5% 。

此外，研究人员发现，严格的阈值 (即 Threshold 为 10%) 能够获得更好的性能。所以，研究人员使用 fastText OH-2.5 + ELI5 分类器得分来进行数据过滤，保留前 10% 的文档便得到了 DCLM-BASELINE 。

研究结果：生成高质量数据集，基于模型的过滤是关键

首先，研究人员分析了未经评估的预训练数据污染，是否会影响研究结果。

MMLU 作为衡量大语言模型性能的基准测试，旨在更全面考察模型对不同语言的理解能力。因此，研究人员将 MMLU 作为评估集，并从 MMLU 中检测、删除 DCLM-BASELINE 中存在的问题。随后，研究人员基于 DCLM-BASELINE 训练了一个 7B-2x 模型，而不使用检测到的 MMLU 重叠。

结果如下图显示，污染样品的去除，并不会导致模型的性能下降。由此可见，DCLM-BASELINE 在 MMLU 测试基准上的性能提升，并不是因为其数据集中包含 MMLU 中的数据。

除此之外，研究人员还在 Dolma-V1.7 和 FineWeb-Edu 上应用了上述去除策略，以测量 DCLM-BASELINE 与这些数据集之间的污染差异。结果发现 DLCM-BASELINE 的污染统计数据，和其他高性能数据集大致相似。

其次，研究人员还将训练的新模型，与 7B-8B 参数规模下的其他模型进行了比较。结果显示，基于 DCLM-BASELINE 数据集生成的模型优于在开源数据集上训练的模型，并且比在闭源数据集上训练的模型具有竞争力。

大量的实验结果表明，基于模型的过滤是组成高质量数据集的关键，并且数据集设计对语言模型的训练十分重要。生成的数据集 DCLM-BASELINE 支持使用 2.6T 训练 tokens 在 MMLU 上从头开始训练 7B 参数语言模型，达到 64% 的 5-shot 准确性。

与之前最先进的开放数据语言模型 MAP-Neo 相比，生成的数据集 DCLM-BASELINE 在 MMLU 上提高了 6.6 %，同时训练所需的计算量减少了 40% 。

DCLM 的基础模型在 MMLU 上与 Mistral-7B-v0.3 和 Llama3 8B 相当 (63% 和 66%)，并且在 53 个自然语言理解任务上表现相似，但训练所需的计算量比 Llama3 8B 少 6.6 倍。

Scaling Laws 未来走向莫衷一是，寻找用于语言模型的下一代训练集

总结来看，DCLM 的核心是鼓励研究人员，通过基于模型的过滤来组建高质量训练集，进而提升模型性能。而这也在「以大为美」的模型训练趋势下，提供了全新的解题思路。

正如清华大学计算机系博士秦禹嘉所言，「是时候把数据 scale down 了」。通过分析总结多篇论文，他发现「清洗后的干净数据+更小的模型能够更加逼近脏数据+大模型的效果」。

7 月初，比尔·盖茨在最新一期 Next Big Idea 播客中提到了 AI 技术范式变革的话题，他认为 Scaling Laws 快要走到尽头了。 AI 对于计算机交互的革命还没来到，但它的真正进步在于实现更接近人类的元认知能力，而非仅扩大模型规模。

在此之前，多位国内行业大咖也曾在 2024 北京智源大会上，就 Scaling Laws 未来走向的问题，展开了深度探讨。

零一万物 CEO 李开复表示，Scaling Law 已被验证有效并且尚未达到顶峰，但利用缩放定律不能盲目堆 GPU ，仅仅依靠堆砌更多算力提升模型效果，只会导致那些 GPU 足够多的公司或国家才能胜出。

清华大学智能产业研究院的院长张亚勤则表示，Scaling Law 的实现主要得益于对海量数据的利用以及算力的显著提升。未来 5 年内仍是产业发展的主要方向。

月之暗面 CEO 杨植麟认为，Scaling Law 没有本质问题，只要有更多算力、数据，模型参数变大，模型就能持续产生更多智能。他认为 Scaling Law 会持续演进，只是在这个过程中 Scaling Law 的方法可能会发生很大变化。

百川智能 CEO 王小川认为，在 Scaling Law 之外，一定要寻找算力、算法、数据等范式上的新转化，而不只是简单变成知识压缩，走出这个体系才有机会走向 AGI 。

大模型的成功很大程度上要归因于 Scaling Laws 的存在，它在一定程度上为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。对于「Scaling Laws 的尽头是什么」我们现在或许还无从得知，但 DCLM 基准测试为提升模型性能提供了一种新的思考范式和可能。

参考资料：

https://arxiv.org/pdf/2406.11794v3

https://arxiv.org/abs/2001.08361

https://www.aisafetybook.com/textbook/scaling-laws

https://arxiv.org/abs/2404.0136

斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当

2 年前

人们对 AI 模型的关注高热不下，关于 Scaling Laws 的争论也愈发热烈。

相关研究已经以「DataComp-LM: In search of the next generation of training sets for language models」为题，发表于学术平台 http://arXiv.org 上。

研究亮点

* DCLM 基准测试的参与者，可以在 412M 到 7B 参数的模型尺度上试验数据管理策略

* DCLM 的基础模型在 MMLU 上与 Mistral-7B-v0.3 和 Llama3 8B 表现相当

DCLM 基准：从 400M 到 7B 多尺度设计，实现不同计算规模需求

DCLM 是一个用于改进语言模型的数据集实验平台，是语言模型训练数据管理的第一个基准。

选择计算规模

建立数据集

其次，确定参数规模后，在建立数据集的过程中，参与者可以通过过滤 (Filter) 或混合 (Mix) 数据来创建数据集。

在混合轨道 (Mix track) 中，参与者可以从多个来源自由组合数据。例如，合成来自 DCLM-Pool 、自定义爬取的数据、 Stack Overflow 和维基百科的数据文档。

训练模型

基于之前对模型架构和训练的消融研究，研究人员采用像 GPT-2 、 Llama 这样的仅解码器的 Transformer 架构，最终在 OpenLM 中进行模型训练。

模型评估

为了评估数据整理算法，研究人员主要关注 3 个性能指标：MMLU 5-shot 准确率、 CORE 中心准确率、 EXTENDED 中心准确率。

数据集：使用 DCLM 构建高质量的训练数据集

DCLM 是如何构建高质量数据集 DCLM-BASELINE，并量化数据管理方法的效果的呢？

研究结果：生成高质量数据集，基于模型的过滤是关键

首先，研究人员分析了未经评估的预训练数据污染，是否会影响研究结果。

与之前最先进的开放数据语言模型 MAP-Neo 相比，生成的数据集 DCLM-BASELINE 在 MMLU 上提高了 6.6 %，同时训练所需的计算量减少了 40% 。

Scaling Laws 未来走向莫衷一是，寻找用于语言模型的下一代训练集

在此之前，多位国内行业大咖也曾在 2024 北京智源大会上，就 Scaling Laws 未来走向的问题，展开了深度探讨。

参考资料：

https://arxiv.org/pdf/2406.11794v3

https://arxiv.org/abs/2001.08361

https://www.aisafetybook.com/textbook/scaling-laws

https://arxiv.org/abs/2404.0136

Command Palette

斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当

DCLM 基准：从 400M 到 7B 多尺度设计，实现不同计算规模需求

选择计算规模

建立数据集

训练模型

模型评估

数据集：使用 DCLM 构建高质量的训练数据集

研究结果：生成高质量数据集，基于模型的过滤是关键

Scaling Laws 未来走向莫衷一是，寻找用于语言模型的下一代训练集

Command Palette

斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当

DCLM 基准：从 400M 到 7B 多尺度设计，实现不同计算规模需求

选择计算规模

建立数据集

训练模型

模型评估

数据集：使用 DCLM 构建高质量的训练数据集

研究结果：生成高质量数据集，基于模型的过滤是关键

Scaling Laws 未来走向莫衷一是，寻找用于语言模型的下一代训练集

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

Command Palette

斯坦福/苹果等 23 所机构发布 DCLM 基准测试，高质量数据集能否撼动 Scaling Laws？基础模型与 Llama3 8B 表现相当

DCLM 基准：从 400M 到 7B 多尺度设计，实现不同计算规模需求

选择计算规模

建立数据集

训练模型

模型评估

数据集：使用 DCLM 构建高质量的训练数据集

研究结果：生成高质量数据集，基于模型的过滤是关键

Scaling Laws 未来走向莫衷一是，寻找用于语言模型的下一代训练集

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

相关报道

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准