中科研团队提出基于信息论的强化学习微调框架,提升大模型推理效率与质量
中国科学院软件研究所研究团队近日提出一种基于信息论的强化学习微调框架——Learning to Think(L2T),旨在解决大语言模型在复杂推理任务中效率与效果难以兼顾的难题。随着大语言模型能力的不断跃升,其应用已从简单的文本生成扩展至需要多步逻辑推演的高阶任务,如数学证明、编程求解与科学推理等。然而,现有方法普遍依赖最终结果作为奖励信号,忽视了推理过程中各步骤的价值,导致模型生成大量冗余或低效的中间推导,不仅浪费计算资源,还可能影响最终准确率。 为突破这一瓶颈,L2T框架对传统强化学习范式进行了创新重构。该框架将复杂推理过程建模为多轮层次化对话,每一轮对应一个推理步骤。在此基础上,引入基于信息论的稠密过程奖励机制,通过量化每一步推理带来的信息增益,精准评估其对整体推理路径的贡献。这一机制能够有效识别并奖励有逻辑、有实质推进的推理行为,同时抑制无意义或重复的生成。为实现高效策略优化,研究团队进一步改进了GRPO算法,使其更适应信息增益驱动的奖励信号,从而实现对推理路径的精细化调控。 在多个权威推理基准测试中,L2T展现出显著优势。在AIME、AMC和HumanEval等任务上,该框架在不同规模的基础模型(如DeepSeek-R1-Distill-Qwen-1.5B和DeepScaleR-1.5B-Preview)上均实现稳定性能提升。实验结果表明,相较于传统基于结果奖励的方法,L2T在准确率上平均提升超过3.2%,同时token使用效率提升一倍;相比现有基于过程奖励的基线方法,准确率仍高出约2%,效率提升约1.2倍。此外,在多任务、多难度的综合评估中,L2T在不同token预算条件下均保持稳定且显著的性能优势,表现出良好的泛化能力与实用性。 该研究成果已发表于人工智能领域顶级会议NeurIPS 2025,为大语言模型在复杂推理场景下的高效优化提供了新思路。L2T框架不仅推动了强化学习与信息论在模型训练中的深度融合,也为未来构建更智能、更高效的推理系统奠定了技术基础。
