Command Palette
Search for a command to run...
组方差策略优化 GVPO
组方差策略优化(Group Variance Policy Optimization,GVPO)是由作业帮团队联合香港科技大学(广州)于 2025 年 4 月提出的,相关研究成果发表于论文「GVPO: Group Variance Policy Optimization for Large Language Model Post-Training」,被 NeurIPS 2025 接受。
GVPO 将 KL 约束奖励最大化的解析解直接融入其梯度权重中,确保与最优策略的一致性。该方法提供了直观的物理解释:其梯度反映了隐式奖励中心距离与实际奖励中心距离之间的均方误差。 GVPO 具有两个关键优势:一是它保证了唯一的最优解,即 KL 约束奖励最大化目标,二是它支持灵活的采样分布,避免了策略和重要性采样的限制。