Command Palette
Search for a command to run...
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

摘要
后训练在优化和对齐大语言模型以满足特定任务需求及人类偏好方面发挥着至关重要的作用。尽管近期的后训练技术(如分组相对策略优化,Group Relative Policy Optimization, GRPO)通过引入更多采样并结合相对奖励评分,实现了卓越的性能表现,但这些方法往往存在训练不稳定性问题,限制了其实际应用。在此基础上,我们提出了一种新的方法——分组方差策略优化(Group Variance Policy Optimization, GVPO)。GVPO将KL约束下的奖励最大化问题的解析解直接嵌入其梯度权重中,从而确保与最优策略的一致性。该方法具有直观的物理意义:其梯度反映了隐式奖励与实际奖励之间中心距离的均方误差。GVPO具有两大优势:(1)保证存在唯一最优解,且该解 precisely 对应于KL约束下的奖励最大化目标;(2)支持灵活的采样分布,避免了在线策略采样(on-policy)和重要性采样(importance sampling)的局限性。通过将理论保障与实际适应性相统一,GVPO为大语言模型的后训练建立了一种新的范式,具备更高的可靠性与通用性。