HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5 天前

从模仿到判别:迈向一种增强跨领域推理任务的通用课程优势机制

从模仿到判别:迈向一种增强跨领域推理任务的通用课程优势机制

摘要

强化学习已逐渐成为大语言模型后训练阶段的重要范式,显著提升了模型的推理能力。此类方法通过对每个样本计算优势值(advantage value),反映其表现优于或劣于预期的程度,从而为训练过程提供正向与负向双重信号。然而,现有方法在早期阶段即 indiscriminately(不加区分地)混合正负信号,可能导致指导信息模糊,限制性能提升。为解决这一问题,我们提出 CAPO(Curriculum Advantage Policy Optimization,课程化优势策略优化),一种基于优势信号的自适应课程机制。该机制首先仅利用正向优势样本进行模仿学习,构建稳健的初始基础;随后逐步引入负向信号,以培养模型的判别能力,从而在复杂场景下实现更优的泛化性能。该方法兼容多种优化算法,包括 GRPO、PPO、RLOO 与 Reinforce++,在数学推理任务中持续实现稳定且显著的性能提升,并进一步有效拓展至多模态图形用户界面(GUI)推理场景,展现出卓越的通用性与鲁棒性,成为一种兼具灵活性与高效性的优化框架。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供