Command Palette

Search for a command to run...

组方差策略优化 GVPO

日期

10 天前

机构

The Hong Kong University of Science and Technology(GuangZhou)

论文链接

2504.19599

组方差策略优化(Group Variance Policy Optimization,GVPO)是由作业帮团队联合香港科技大学(广州)于 2025 年 4 月提出的,相关研究成果发表于论文「GVPO: Group Variance Policy Optimization for Large Language Model Post-Training」,被 NeurIPS 2025 接受。

GVPO 将 KL 约束奖励最大化的解析解直接融入其梯度权重中,确保与最优策略的一致性。该方法提供了直观的物理解释:其梯度反映了隐式奖励中心距离与实际奖励中心距离之间的均方误差。 GVPO 具有两个关键优势:一是它保证了唯一的最优解,即 KL 约束奖励最大化目标,二是它支持灵活的采样分布,避免了策略和重要性采样的限制。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供