HyperAIHyperAI

Command Palette

Search for a command to run...

5 小时前
模型训练
LLM

重新思考 Large Language Models 的 On-Policy Distillation:现象学、机制与方法论

摘要

On-policy distillation (OPD) 已成为大语言模型(LLM)后训练(post-training)阶段的核心技术,然而其训练动力学(training dynamics)仍缺乏深入研究。本文对 OPD 的动力学及其机制进行了系统性的调查。我们首先发现,OPD 的成功与否受两个条件的制约:(i) 学生模型与教师模型应具备兼容的思维模式;(ii) 即使思维模式一致且得分更高,教师模型也必须提供学生在训练期间未曾见过的、真正具有新增能力的知识。我们通过“弱到强”的反向 distillation(weak-to-strong reverse distillation)验证了这些发现,结果表明,从学生模型的视角来看,同家族的 1.5B 和 7B 教师模型在分布上是无法区分的。通过对 token 级机制的深入探究,我们发现成功的 OPD 特征在于:在学生模型访问过的状态下,模型会在高概率 token 上实现渐进式的 alignment,即存在一个较小的共享 token 集合,该集合集中了绝大部分的概率质量(97%-99%)。此外,针对失败的 OPD,我们进一步提出了两种实用的恢复策略:off-policy 冷启动(off-policy cold start)和教师对齐的 prompt 选择(teacher-aligned prompt selection)。最后,我们指出,OPD 表面上看似通过密集的 token 级 reward 获得了“免费午餐”,但实际上是有代价的,这引发了一个疑问:OPD 是否能够扩展到长程 distillation(long-horizon distillation)任务中。

一句话总结

通过对大语言模型后训练中 on-policy distillation (OPD) 动态机制的系统性研究,本文发现其成功取决于兼容的思维模式和 teacher 的新颖性,揭示了一种以高概率 tokens 的渐进式对齐为特征的 token 级机制,并提出了 off-policy cold start 和 teacher-aligned prompt selection 策略来挽救失败的 distillation 过程。

核心贡献

  • 本文确定了成功进行 on-policy distillation 的两个基本条件:student 与 teacher 之间需要具备兼容的思维模式,以及 teacher 必须提供 student 在训练期间未曾接触过的真正新能力。
  • 研究揭示了一种 token 级机制,即成功的 distillation 以 student 访问状态下高概率 tokens 的渐进式对齐为特征,其中一小部分共享 token set 集中了 97% 到 99% 的概率质量。
  • 引入了两种实用策略:off-policy cold start 和 teacher-aligned prompt selection,用于在未满足上述成功条件时恢复 distillation 性能。

引言

On-policy distillation (OPD) 已成为大语言模型后训练中至关重要的技术,因为它提供了密集的、逐 token 的监督,从而缓解了 off-policy 方法中存在的 exposure bias。然而,OPD 通常是脆弱的,从业者经常遇到更强的 teacher 无法提升 student 模型的场景。作者通过研究发现,成功的 distillation 需要模型之间兼容的思维模式,以及 student 尚未掌握的真正新知识的存在,从而解释了这种不稳定性。为了解决这些失败情况,作者提出了两种实用策略:通过 off-policy cold start 来弥合思维模式差距,以及通过 teacher-aligned prompt selection 来强化对齐。

数据集

Dataset overview
Dataset overview

作者构建了多个专门的数据集,以促进 cold-start distillation 和受控评估:

  • Cold-Start SFT 数据集:为了初始化 student 模型,作者从 OpenThoughts3-1.2M 的数学子集中采样了 200,000 个数学 prompts。这些 prompts 通过使用 Qwen3-4B (Non-thinking)、temperature 为 0.7 且最大生成长度为 12,288 tokens 的离线 teacher rollout 进行处理。生成的数据集经过过滤,以移除不完整或退化的重复响应。
  • DeepMath 去重子集:为了进行跨规模实验,作者创建了一个 DeepMath 子集的版本,该版本针对 DAPO-Math-17K 进行了去重,以将领域内 prompts 与出现在 teacher RL 后训练数据中的 prompts 区分开来。该过程包含两个阶段:
    • 精确匹配去重:移除指令后缀,任何与 DAPO-Math-17K 问题完全匹配的 DeepMath 问题都会被丢弃。
    • 语义去重:使用 all-mpnet-base-v2 模型对问题进行编码。利用 FAISS 索引,作者通过计算余弦相似度来识别近乎重复的问题。任何与 DAPO-Math-17K 中最近邻相似度得分达到 0.6 或更高的 DeepMath 问题都会被移除。
  • 模型训练与使用
    • 过滤后的 200,000 个 teacher 生成的对被用于 Qwen3-1.7B-Base 模型的全参数监督微调 (SFT),从而产生 Qwen3-1.7B-SFT。
    • 去重的 DeepMath 子集用于在与 teacher 后训练数据重叠的 prompts 与严格领域内的 prompts 之间进行受控比较。

方法

作者提出了一个 On-Policy Distillation (OPD) 框架,该方法通过最小化在从当前 student policy 采样的轨迹上,student 与 teacher 的 next-token 分布之间的差异,将知识从 teacher 语言模型 πT\pi_TπT 转移到 student 模型 πθ\pi_\thetaπθ。核心机制在 on-policy 设置下运行,对于从数据集 Dx\mathcal{D}_xDx 中抽取的每个 prompt xxx,student 通过自回归采样生成响应 y^=(y^1,,y^T)\hat{y} = (\hat{y}_1, \ldots, \hat{y}_T)y^=(y^1,,y^T)。在每个步骤 ttt,会将 student 的分布 pt(v)=πθ(vx,y^<t)p_t(v) = \pi_\theta(v \mid x, \hat{y}_{<t})pt(v)=πθ(vx,y^<t) 与 teacher 的分布 qt(v)=πT(vx,y^<t)q_t(v) = \pi_T(v \mid x, \hat{y}_{<t})qt(v)=πT(vx,y^<t) 进行比较。主要目标是最小化 student 和 teacher 生成轨迹之间的序列级反向 Kullback-Leibler (KL) 散度,该散度可以分解为整个 rollout 过程中逐 token KL 散度的总和。

Framework Overview
Framework Overview

如上图所示,整体框架由三个相互关联的部分组成。第一部分“现象学 (Phenomenology)”识别了区分有效 OPD 的两个经验模式:一致的思维模式,以及观察到更高的分数并不一定意味着获得了新知识。核心部分“机制 (Mechanism)”解释了 OPD 为何在 token 级别有效,强调了高概率 tokens 的渐进式对齐主导了这一过程,并且仅靠重叠 tokens 就足以实现有效的 distillation。最后一部分“方案 (Recipe)”提出了两种策略来挽救失败的 OPD 实例,即通过弥合思维模式差距,具体包括 off-policy cold start 和 teacher-aligned prompts。

该框架包含三种不同的 OPD 实现方式,其区别在于用于计算 KL 散度的监督粒度。最轻量级的变体 sampled-token OPD 仅在每个步骤中 student 采样的特定 token 处评估散度,使用损失函数 tsample=logpt(y^t)logqt(y^t)\ell_t^{\text{sample}} = \log p_t(\hat{y}_t) - \log q_t(\hat{y}_t)tsample=logpt(y^t)logqt(y^t)。相比之下,full-vocabulary OPD 在每个步骤计算整个词表上的 KL 散度,提供了更密集的梯度,但计算成本更高。Top-k OPD 提供了一种折中方案,将散度计算限制在词表的子集 StS_tSt 中,通常是 student 分布下概率最高的 top-kkk tokens。这种方法在显著减少 teacher 查询次数的同时,近似了 full-vocabulary KL 散度,将监督重点放在 student 的高概率区域。作者进一步定义了用于监控 distillation 过程的指标,包括衡量 student 与 teacher 的 top-kkk 集合之间对齐程度的 overlap ratio,评估重叠 tokens 内分布一致性的 overlap-token advantage,以及追踪两个模型之间不确定性差异的 entropy gap。

实验

这些实验通过比较各种 teacher-student 模型配对和训练配置,研究了控制 On-Policy Distillation (OPD) 有效性的条件和机制。结果表明,成功的 distillation 取决于思维模式的一致性和新知识的存在,而非仅仅取决于基准测试性能或模型规模。从机制上看,有效的 OPD 由共享高概率 tokens 的渐进式对齐驱动,这一过程可以通过 off-policy cold starts 或使用 teacher-aligned prompts 来增强。

表格列出了用于 On-Policy Distillation (OPD) 训练的默认超参数,包括 batch size、learning rate 和 token support 的设置。这些参数定义了论文中所述实验的训练配置。OPD 使用 1e-6 的固定学习率和 64 的全局 batch size。训练采用 Student Top-K 策略,LogProb top-K 为 16。训练期间 KL 正则化被禁用,系数为 0.0。

OPD training hyperparameters
OPD training hyperparameters

该图比较了成功的和失败的 on-policy distillation 训练运行情况,显示成功的 distillation 以在高概率 tokens 上的稳定对齐为特征,而失败则发生在对齐停滞时。主要的梯度和 advantages 来自于重叠 tokens,它们驱动了优化过程。成功的 OPD 在高概率 tokens 上显示出不断增加的重叠,而失败的 OPD 则显示出停滞的对齐。OPD 中的主要优化信号来自 student 和 teacher 之间的共享 tokens。当 student 无法与 teacher 的高概率 tokens 对齐时,就会发生失败,导致梯度微弱且没有改进。

OPD training dynamics comparison
OPD training dynamics comparison

作者研究了 on-policy distillation (OPD) 成功的条件,发现 student 与 teacher 模型之间的思维模式一致性对于有效的知识转移至关重要。即使 teacher 模型优于 student,如果它们的推理模式不匹配,OPD 也会失败;只有当 teacher 拥有超出 student 现有知识的新能力时,才会发生成功的 distillation。student 与 teacher 之间的思维模式一致性对于成功的 OPD 至关重要;当 teacher 的推理模式与 student 不兼容时,无论基准测试性能如何,OPD 都会失败;teacher 通过后训练获得的新知识能够使 OPD 实现更强的增益。

OPD effectiveness depends on thinking patterns
OPD effectiveness depends on thinking patterns

实验比较了使用不同 prompt 模板下的 OPD 性能,结果显示 teacher-aligned 模板在各个基准测试中带来了更高的准确率和更好的重叠增长。结果表明,将 prompt 格式与 teacher 的训练数据对齐,可以通过提高 student 与 teacher 思维模式之间的兼容性来增强 distillation 的有效性。使用 teacher-aligned prompt 模板可以提高 OPD 的准确率和重叠增长;teacher-aligned 模板在多个基准测试中产生了一致的增益;prompt 对齐增强了 student-teacher 的兼容性,从而带来了更好的 distillation 结果。

Prompt template alignment improves OPD
Prompt template alignment improves OPD

实验比较了将两种具有不同思维模式的 teacher 蒸馏到同一个 student 模型中的情况。结果显示,具有更兼容思维模式的 teacher 实现了更强的性能和更高的初始重叠,这表明思维模式的一致性决定了 OPD 的有效性。尽管基准测试性能相似,但更对齐的 teacher 产生了更好的 distillation 结果。来自具有兼容思维模式的 teacher 的蒸馏优于来自不匹配 teacher 的蒸馏。初始重叠率与下游性能相关,这表明早期的模式对齐至关重要。尽管重叠曲线趋于一致,但性能差距依然存在,这表明早期的不匹配会降低 distillation 的收益。

OPD performance comparison
OPD performance comparison

实验通过分析训练稳定性、思维模式一致性和 prompt 对齐,评估了 On-Policy Distillation (OPD) 的动态机制和成功因素。结果表明,成功的 distillation 依赖于 student 与 teacher 高概率 tokens 对齐的能力,这一过程由共享的推理模式驱动。最终,OPD 的有效性取决于 teacher 与 student 之间思维模式的兼容性,这可以通过使用 teacher-aligned prompt 模板进一步优化。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供