Command Palette
Search for a command to run...

摘要
近年来,针对基础模型的强化学习方法取得了显著进展,例如群体相对策略优化(Group Relative Policy Optimization, GRPO),显著提升了基础模型在推理任务上的表现。值得注意的是,GRPO 中的优势函数作为核心机制,用于对轨迹的重要性进行排序。然而,现有方法在实践中面临优势反转和优势镜像等问题,导致在不同查询样本之间难以实现合理的优势分配。针对这一问题,本文提出了一种简单但高效的GRPO改进策略——混合优势策略优化(Mixed Advantage Policy Optimization, MAPO)。我们发现,不同轨迹具有不同的确定性,并针对高确定性轨迹的样本提出了“优势百分比偏差”概念。此外,我们对具有不同轨迹确定性的样本动态重加权优势函数,从而自适应地调整优势函数,以充分考虑样本特异性。与现有先进方法的对比实验,以及对多种优势函数变体的消融研究,充分验证了所提方法的有效性。