1 天前

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren

摘要

随着高质量公共文本数据逐渐枯竭，一种被称为“数据墙”（Data Wall）的现象正在显现，预训练正从追求更多token转向更优token。然而，现有方法要么依赖于忽视训练动态的启发式静态过滤器，要么采用基于原始梯度的动态但与优化器无关的筛选标准。为此，我们提出OPUS（Optimizer-induced Projected Utility Selection）——一种动态数据选择框架，其在优化器诱导的更新空间中定义数据的“效用”。OPUS通过将现代优化器所塑造的有效更新向量，投影到由稳定且分布内代理（in-distribution proxy）导出的目标方向上，从而对候选数据进行评分。为保障可扩展性，OPUS采用Ghost技术结合CountSketch以提升计算效率，并引入Boltzmann采样以维持数据多样性，整体仅带来4.7%的额外计算开销。OPUS在多种语料库、数据质量层级、优化器类型及模型规模下均展现出卓越性能。在基于300亿token的FineWeb与FineWeb-Edu数据集上对GPT-2 Large/XL进行预训练时，OPUS不仅超越了工业级基线方法，甚至优于完整的2000亿token训练。此外，当与工业级静态过滤器结合使用时，OPUS进一步提升了预训练效率，即便在低质量数据环境下仍表现优异。更值得注意的是，在Qwen3-8B-Base模型的持续预训练任务中，利用仅0.5亿token的OPUS筛选数据即可达到使用完整30亿token全量训练的性能水平，充分体现了其在专业领域中的显著数据效率优势。

一句话总结

EPIC 实验室、Qwen 团队、威斯康星大学麦迪逊分校、伊利诺伊大学厄巴纳-香槟分校和 Mila 的研究人员提出了 OPUS，这是一种动态数据选择方法，通过将优化器塑造的更新投影到稳定方向上，相比随机选择效率提升 8 倍、准确率提升 2.2%，尤其在 SciencePedia 等专业领域使用极少 token 即可取得显著效果。

主要贡献

OPUS 引入了一种优化器感知的效用度量指标用于动态数据选择，根据样本在 AdamW 和 Muon 等自适应优化器实际更新空间中的投影影响进行打分，解决了基于梯度评分与现代训练动态不一致的问题。
该方法采用从训练语料中提取的稳定、分布内代理数据集（BENCH-PROXY），并通过 Ghost 技术结合 CountSketch 投影实现高效扩展，在仅增加 4.7% 计算开销的同时，通过玻尔兹曼采样保持数据多样性。
实验表明，OPUS 在使用 30B token（而非 200B）对 GPT-2 Large/XL 进行预训练时优于工业基线，并在仅使用 0.5B token（而非 3B）对 Qwen3-8B-Base 在 SciencePedia 上进行持续预训练时取得更优结果，展现出在不同模型规模和领域中的显著数据效率。

引言

作者利用高质量预训练数据日益稀缺的现状，将数据选择重新定义为一种优化器感知的动态过程，而非静态预处理步骤。以往方法要么依赖忽略模型演化的固定质量启发式规则，要么在原始梯度空间中对样本打分，与 AdamW 和 Muon 等重塑更新方向的现代自适应优化器不匹配。OPUS 引入“优化器诱导效用”——一种基于实际优化器几何结构、可扩展的框架，通过高效投影和稳定分布内代理对数据进行评分。它进一步通过玻尔兹曼采样保持多样性，并在多个大语言模型和数据集上优于静态过滤器和先前动态选择器。

数据集

作者构建了 BENCH-PROXY，一个从预训练语料中采样的小型代理数据集，用于近似目标基准分布，从而在训练期间高效计算梯度。
他们使用 Arctic-Embed-L v2（Yu 等，2024a）的嵌入计算每个预训练文档的基准相关性得分——将每个文档与所有基准验证样本进行余弦相似度比较，并取每个文档的最大相似度。
代理集 𝒟_proxy 通过按相关性得分排序文档并贪心选取最高分文档构建，直到达到 30M token 预算，确保紧凑性和分布对齐。
训练期间，从 𝒟_proxy 中重复采样小批量数据以估计梯度方向，用于步骤内排序，保持稳定、低方差评分，同时引导模型朝向与基准对齐的数据。

方法

作者采用 OPUS，这是一种在优化器诱导的更新几何结构内运行的动态数据选择框架，优先选择能最大程度减少验证损失的训练样本，且基于现代优化器的实际轨迹。与先前使用原始梯度评分的方法不同（隐含假设更新空间类似 SGD），OPUS 显式考虑了 AdamW 和 Muon 等优化器施加的状态依赖预处理。这一点至关重要，因为现代优化器通过动量、自适应缩放或矩阵正交化重塑梯度方向，从而改变有效更新路径。如下图所示，OPUS 将选择与实际优化器诱导路径（绿色曲线）对齐，避免了在非 SGD 优化器下使用原始梯度选择（蓝色曲线）时产生的错位间隙（红色虚线箭头）。

在每个训练步骤 $t$ ，OPUS 接收候选缓冲区 $\mathcal{B}_t$ ，并选择大小为 $K = \lfloor \rho N \rfloor$ 的子集 $\widehat{\mathcal{B}}_t$ 以形成更新批次。选择由基于一次优化器步骤后验证损失预期减少的效用函数引导。具体而言，将候选样本 $z$ 添加到当前选定子集 $\widehat{\mathcal{B}}_t$ 的边际效用近似为：

U_z^{(t)} \approx \eta_t \left\langle \mathbf{u}_z^{(t)}, \mathbf{g}_{\mathrm{proxy}}^{(t)} \right\rangle - \eta_t^2 \left\langle \mathbf{u}_z^{(t)}, \mathbf{G}^{(t)} \right\rangle,

其中 $\mathbf{u}_z^{(t)} = \mathbf{P}_t \nabla_\theta \mathcal{L}(z; \theta_t)$ 是样本 $z$ 的优化器诱导有效更新， $\mathbf{g}_{\mathrm{proxy}}^{(t)}$ 是从稳定、分布内验证代理池 $\mathcal{D}_{\mathrm{proxy}}$ 估计的代理梯度， $\mathbf{G}^{(t)} = \sum_{z_j \in \widehat{\mathcal{B}}_t} \mathbf{u}_{z_j}^{(t)}$ 是已选样本的累积有效方向。第一项鼓励与代理目标方向对齐，第二项通过惩罚几何上与已选样本更新方向对齐的样本来避免冗余。

为构建代理方向，OPUS 采用 BENCH-Proxy：一种基于检索的方法，使用冻结文本编码器对基准验证数据和预训练文档进行嵌入，然后选择最相似的前 $M$ 个预训练文档以形成 $\mathcal{D}_{\mathrm{proxy}}$ 。这确保代理保持在预训练流形内，同时与下游任务分布对齐，从而产生稳定且任务相关的梯度信号。

为将此效用计算扩展到大语言模型规模，OPUS 通过利用 ghost 技术避免物化完整逐样本梯度。对于每个线性层 $r$ ，逐样本梯度 $\nabla_{\mathbf{W}_r} \mathcal{L}(z; \theta_t)$ 被分解为输入激活 $\mathbf{a}_r^{(z)}$ 和输出梯度 $\mathbf{b}_r^{(z)}$ 的外积。优化器诱导的有效更新 $\mathbf{P}_{t,r} (\mathbf{a}_r^{(z)} \otimes \mathbf{b}_r^{(z)})$ 随后使用 CountSketch 算子 $\Pi_r$ 投影到低维空间 $\mathbb{R}^m$ ，从而在不物化完整梯度的情况下实现高效内积计算。对于对角预处理（如 AdamW），该投影与预处理交错进行，保持每层 $\mathcal{O}(d_{\text{in}} + d_{\text{out}})$ 的计算效率。对于稠密预处理（如 Muon），成本增加到 $\mathcal{O}(d_{\text{in}} d_{\text{out}})$ ，但由于草图维度 $m \ll d$ ，仍可处理。

最后，为保持数据多样性并避免过拟合瞬态代理噪声，OPUS 用玻尔兹曼采样替代确定性贪心选择。每个候选样本 $z$ 以与 $\exp(U_z^{(t)} / \tau)$ 成比例的概率被采样，其中 $\tau > 0$ 是温度超参数。这种随机选择确保高效用样本被优先选择，同时保留互补候选样本的非零概率，增强对估计噪声和数据流非平稳性的鲁棒性。

请参阅框架图以全面了解 OPUS 流程，该流程在单个训练循环内集成了代理构建、高效梯度投影、迭代效用估计和多样性保持采样。

整个过程迭代执行：在每一步，OPUS 计算优化器诱导预处理器 $\mathbf{P}_t$ ，为代理和候选样本生成每层草图，在投影空间中估计边际效用，通过玻尔兹曼分布采样下一批，然后使用所选子集更新模型。这确保每个训练步骤都由优化器的实际几何结构、代理的任务相关方向和所选数据的多样性指导。

实验

OPUS 显著提升预训练效率，在 GPT-XL 使用 FineWeb 时，相比随机选择实现 2.2% 平均准确率提升和 8 倍计算减少。
即使从较低质量数据（FineWeb-Edu 得分 3）中选择，OPUS 仍优于静态和动态基线，匹配或超过在更高质量数据（得分 4–5）上训练的方法。
在 AdamW 和 Muon 优化器下，性能增益均成立，验证了与预处理更新轨迹对齐的数据选择可提升训练信号质量。
OPUS 超越代理对齐基准，在分布外推理和理解任务中表现更优。
在 SciencePedia 上持续预训练时，OPUS 仅用 0.5B token 即达到最佳性能——比在 3B token 上训练的随机选择数据效率高 6 倍——同时在科学领域内表现提升。
消融实验证实，随机采样和基准匹配代理至关重要；贪心选择和默认代理表现不佳。
OPUS 通过 CountSketch 投影保持最小计算开销（4.7% 延迟），优于产生更高选择成本的静态方法。
定性上，OPUS 选择更多样化、更广泛有用的样本，而静态方法过度集中于狭窄或高损失模式。

作者使用 OPUS 在预训练期间动态选择训练数据，使选择与优化器特定的更新方向对齐。结果表明，OPUS 在多个模型规模和优化器下始终优于静态过滤和其他动态方法，实现更高平均基准分数，同时保持计算效率。该方法还表现出强大的泛化能力和更快收敛，常匹配或超越使用两倍计算预算训练的模型。

作者在不同超参数（包括缓冲区大小、采样温度和投影维度）下评估 OPUS，发现更大的缓冲区和中等温度表现最佳，而 8192 维投影始终提供最优结果。结果表明，OPUS 在所有配置下均优于随机选择，证实其对超参数变化的鲁棒性。即使调整关键组件，方法的有效性仍保持不变，表明模型性能具有稳定可靠的提升。

作者使用 OPUS 动态选择与优化器特定更新方向对齐的训练数据，实现比随机、贪心或标准代理选择更高的平均基准性能。结果表明，结合随机采样和基准匹配代理可提升超越狭窄优化信号的泛化能力。OPUS 在相同计算预算下，在多样推理和知识任务中始终优于基线。

作者使用 OPUS 在预训练期间动态选择训练数据，使选择与优化器特定的更新方向对齐。结果表明，OPUS 在不同模型规模和数据集上始终优于静态和动态基线，即使从较低质量数据子集中选择。该方法实现更强的泛化能力和更快的收敛，同时保持最小计算开销。

作者使用 OPUS 在预训练期间动态选择训练数据，使选择与优化器的更新方向对齐。结果表明，OPUS 始终优于静态和动态基线——即使从较低质量数据中选择——同时在基准测试中实现更快收敛和更好泛化。该方法也保持高效，相比随机采样仅增加最小计算开销。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

1 天前

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren

摘要

一句话总结

主要贡献

OPUS 引入了一种优化器感知的效用度量指标用于动态数据选择，根据样本在 AdamW 和 Muon 等自适应优化器实际更新空间中的投影影响进行打分，解决了基于梯度评分与现代训练动态不一致的问题。
该方法采用从训练语料中提取的稳定、分布内代理数据集（BENCH-PROXY），并通过 Ghost 技术结合 CountSketch 投影实现高效扩展，在仅增加 4.7% 计算开销的同时，通过玻尔兹曼采样保持数据多样性。
实验表明，OPUS 在使用 30B token（而非 200B）对 GPT-2 Large/XL 进行预训练时优于工业基线，并在仅使用 0.5B token（而非 3B）对 Qwen3-8B-Base 在 SciencePedia 上进行持续预训练时取得更优结果，展现出在不同模型规模和领域中的显著数据效率。

引言

数据集

作者构建了 BENCH-PROXY，一个从预训练语料中采样的小型代理数据集，用于近似目标基准分布，从而在训练期间高效计算梯度。
他们使用 Arctic-Embed-L v2（Yu 等，2024a）的嵌入计算每个预训练文档的基准相关性得分——将每个文档与所有基准验证样本进行余弦相似度比较，并取每个文档的最大相似度。
代理集 𝒟_proxy 通过按相关性得分排序文档并贪心选取最高分文档构建，直到达到 30M token 预算，确保紧凑性和分布对齐。
训练期间，从 𝒟_proxy 中重复采样小批量数据以估计梯度方向，用于步骤内排序，保持稳定、低方差评分，同时引导模型朝向与基准对齐的数据。

方法

U_z^{(t)} \approx \eta_t \left\langle \mathbf{u}_z^{(t)}, \mathbf{g}_{\mathrm{proxy}}^{(t)} \right\rangle - \eta_t^2 \left\langle \mathbf{u}_z^{(t)}, \mathbf{G}^{(t)} \right\rangle,

请参阅框架图以全面了解 OPUS 流程，该流程在单个训练循环内集成了代理构建、高效梯度投影、迭代效用估计和多样性保持采样。

实验

OPUS 显著提升预训练效率，在 GPT-XL 使用 FineWeb 时，相比随机选择实现 2.2% 平均准确率提升和 8 倍计算减少。
即使从较低质量数据（FineWeb-Edu 得分 3）中选择，OPUS 仍优于静态和动态基线，匹配或超过在更高质量数据（得分 4–5）上训练的方法。
在 AdamW 和 Muon 优化器下，性能增益均成立，验证了与预处理更新轨迹对齐的数据选择可提升训练信号质量。
OPUS 超越代理对齐基准，在分布外推理和理解任务中表现更优。
在 SciencePedia 上持续预训练时，OPUS 仅用 0.5B token 即达到最佳性能——比在 3B token 上训练的随机选择数据效率高 6 倍——同时在科学领域内表现提升。
消融实验证实，随机采样和基准匹配代理至关重要；贪心选择和默认代理表现不佳。
OPUS 通过 CountSketch 投影保持最小计算开销（4.7% 延迟），优于产生更高选择成本的静态方法。
定性上，OPUS 选择更多样化、更广泛有用的样本，而静态方法过度集中于狭窄或高损失模式。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren

Shaobo Wang Xuan Ouyang Tianyi Xu Yuzheng Hu Jialin Liu Guo Chen Tianyu Zhang Junhao Zheng Kexin Yang Xingzhang Ren