HyperAIHyperAI

Command Palette

Search for a command to run...

中科院提出基于信息论的大模型强化学习微调新框架

中国科学院软件研究所研究团队近日提出一种基于信息论的大语言模型强化学习微调框架——Learning to Think(L2T),旨在解决大模型在复杂推理任务中推理效率低、冗余计算多的问题。随着大语言模型能力不断增强,其应用已从基础自然语言处理拓展至需多步逻辑推理的复杂场景。然而,现有方法普遍仅以最终结果作为奖励信号,缺乏对中间推理过程的有效反馈,导致模型产生冗余推理步骤,浪费计算资源,甚至影响推理准确性。 针对这一问题,L2T框架创新性地将推理过程重构为多回合层次化对话,并引入基于信息论的稠密过程奖励机制。该机制通过量化每一推理回合的信息增益,动态评估推理步骤的有效性,结合改进的GRPO算法对模型进行策略优化,从而鼓励逻辑清晰、信息高效的推理路径,抑制无效或冗余生成,实现对推理过程的精细化调控。 在AIME、AMC和HumanEval等多个主流推理基准测试中,L2T在不同规模的基础模型(如DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B)上均展现出显著性能提升。实验结果表明,相较于传统基于结果奖励的方法,L2T在准确率上平均提升超过3.2%,token效率提升一倍;相比其他基于过程奖励的基线方法,准确率仍提升约2%,效率提高约1.2倍。在多任务评估中,L2T在不同难度任务上实现平均近3%的准确率提升,并在多种token预算条件下均保持稳定优势。 该研究成果已发表于人工智能领域顶级会议NeurIPS 2025,为大语言模型在实际应用中的高效、可靠推理提供了新范式。

相关链接

中科院提出基于信息论的大模型强化学习微调新框架 | 热门资讯 | HyperAI超神经