HyperAI超神经
Back to Headlines

新模型ReasonFlux-PRM提升大型语言模型推理准确性与可靠性

2 days ago

大型语言模型(LLM)在解决复杂任务如数学和科学推理时越来越依赖结构化的链式思维(Chain-of-Thought, CoT)方法。这些模型不仅直接给出答案,还会通过中间步骤模拟逻辑思考过程,从而提高推理准确性并使错误追踪更为清晰。然而,现有的奖励模型(PRM)主要评估最终答案,忽略了结论的形成路径,这在前沿模型如DeepSeek-R1产生大量推理轨迹的情况下显得不足。这导致了监督信号的不可靠,进而影响了小型模型在使用这些轨迹数据训练时的性能。 传统PRM的局限性 当前的PRM设计上更适合处理结构化、干净的输出,而大型语言模型生成的推理链条往往较为冗长且不拘一格。即使是先进的PRM,比如Qwen2.5-Math-PRM-72B,在评估Gemini或DeepSeek-R1的轨迹-响应对时也显示出区分能力有限。实验表明,使用PRM选择的数据进行下游微调的模型表现不如使用人工筛选数据训练的模型。 ReasonFlux-PRM的引入 为了解决这一问题,来自伊利诺伊大学香槟分校(UIUC)、普林斯顿大学、康奈尔大学和字节跳动的研究人员引入了ReasonFlux-PRM。这是第一个能够评估整个推理轨迹以及最终答案的奖励模型。它结合了步级评分和轨迹评分,从而更细致地理解推理质量。ReasonFlux-PRM在一个精心设计的10,000样本数据集上进行了训练,该数据集包含数学和科学问题,以模拟现实世界中的轨迹-响应格式。 技术框架 从技术角度讲,ReasonFlux-PRM通过评估每个中间步骤对最终答案的贡献来为每一步评分。它使用一个参考奖励函数,考虑提示、之前的推理步骤和最终输出,来分配步级评分。这些评分随后被汇总以生成总轨迹奖励。该模型支持多种应用,包括离线过滤高质量训练数据、强化学习中的密集奖励提供以及测试时的最佳响应选择,从而在推理过程中提高模型性能。 实验结果 研究团队在AIME、MATH500和GPQA-Diamond等基准任务上对ReasonFlux-PRM进行了性能评估。结果表明,ReasonFlux-PRM-7B在监督微调中比Qwen2.5-Math-PRM-72B和人类筛选的数据提高了12.1%的准确性;在强化学习过程中提高了4.5%;在测试时规模调整中提高了6.3%。特别是考虑到ReasonFlux-PRM的模型规模较小,这样的提升尤为显著。表格显示,当使用ReasonFlux-PRM筛选的数据训练Qwen2.5-14B-Instruct模型时,其性能接近甚至超过了人类筛选的基线水平,而其他PRM则导致了高达26.6%的性能下降。 影响与未来方向 这项研究解决了现代推理模型训练和评估中的一个关键问题。通过同时监督思考轨迹和最终答案,ReasonFlux-PRM提高了训练数据的质量和模型响应的可靠性,为系统性地评估和改进大型模型的推理过程指明了新的方向。 业内人士评价:ReasonFlux-PRM的引入标志着大型语言模型推理评估的重要进步,特别是对于处理不规则推理路径的能力。研究人员表示,这一改进不仅有助于提高模型的准确性,还能更好地理解模型推理过程中的弱点,从而进一步优化模型。公司背景:参与该项目的研究机构包括多个顶尖高校和字节跳动下的ByteDance Seed实验室,体现了学术界与工业界的密切合作。

Related Links