Command Palette

Search for a command to run...

13 天前

GVPO:面向大语言模型后训练的分组方差策略优化

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO:面向大语言模型后训练的分组方差策略优化

摘要

后训练在优化和对齐大语言模型以满足特定任务需求及人类偏好方面发挥着至关重要的作用。尽管近期的后训练技术(如分组相对策略优化,Group Relative Policy Optimization, GRPO)通过引入更多采样并结合相对奖励评分,实现了卓越的性能表现,但这些方法往往存在训练不稳定性问题,限制了其实际应用。在此基础上,我们提出了一种新的方法——分组方差策略优化(Group Variance Policy Optimization, GVPO)。GVPO将KL约束下的奖励最大化问题的解析解直接嵌入其梯度权重中,从而确保与最优策略的一致性。该方法具有直观的物理意义:其梯度反映了隐式奖励与实际奖励之间中心距离的均方误差。GVPO具有两大优势:(1)保证存在唯一最优解,且该解 precisely 对应于KL约束下的奖励最大化目标;(2)支持灵活的采样分布,避免了在线策略采样(on-policy)和重要性采样(importance sampling)的局限性。通过将理论保障与实际适应性相统一,GVPO为大语言模型的后训练建立了一种新的范式,具备更高的可靠性与通用性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GVPO:面向大语言模型后训练的分组方差策略优化 | 论文 | HyperAI超神经