Command Palette
Search for a command to run...
Jinghao Zhang Naishan Zheng Ruilin Li Dongzhou Cheng Zheming Liang Feng Zhao Jiaqi Wang

摘要
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)最近成为提升大语言模型(Large Language Models, LLMs)推理能力的一种有前景的框架。然而,采用二元验证机制优化策略时,容易忽略推理轨迹中潜在的高价值探索。鉴于黄金过程奖励模型(Golden Process Reward Models, PRMs)标注成本高昂,近期研究尝试利用来自logit空间的辅助信号对过程token进行奖励塑造,包括熵和似然等信息。在本工作中,我们提出一种新颖的视角:通过从隐空间中提取的流奖励(flow rewards)来塑造RLVR,并提出RLFR方法。该方法基于离策略的高质量数据或同策略的拒绝采样数据构建模型隐变量的流场,进而量化策略隐变量在该流场中的速度偏差,作为奖励信号。RLFR首次表明,一个结构良好的流场可作为可靠奖励信号采集的环境,凸显出当前隐空间的表达能力仍远未被充分挖掘。此外,RLFR能够将任意离策略专家数据压缩为参考基准,用于构建奖励信号,我们进一步证明,模型有效利用了隐藏状态中蕴含的高效上下文依赖关系,而非依赖单个token层面的语义表示来进行上下文理解。在语言和多模态推理基准上的实验结果验证了流奖励的可靠性,并表明该方法为利用辅助信号进行奖励塑造提供了一种极具前景的新范式。