HyperAIHyperAI

Command Palette

Search for a command to run...

China: Forscher entwickeln informationsbasierten RL-Finetuning-Ansatz für Großmodelle

中国科学院软件研究所研究团队近日提出一种基于信息论的强化学习微调框架——Learning to Think(L2T),旨在解决大语言模型(LLMs)在复杂推理任务中效率与效果难以兼顾的难题。随着LLMs在数学推理、代码生成等高阶任务中的广泛应用,传统方法多依赖最终结果作为奖励信号,忽视了中间推理步骤的质量与信息价值,导致模型产生大量冗余计算,不仅浪费资源,还可能引入错误传播,影响最终准确性。针对这一瓶颈,L2T框架创新性地将推理过程重构为多回合层次化对话,每一轮推理被视为一次信息交互,通过引入基于信息论的稠密过程奖励机制,实时评估每一步推理带来的信息增益。该机制利用信息熵变化量化推理进展,精准识别有效推理路径,抑制无意义或重复生成。在此基础上,L2T采用改进的GRPO(Generalized Reward Policy Optimization)算法进行策略优化,实现对推理行为的精细化调控。实验结果表明,L2T在AIME、AMC和HumanEval等多个权威推理基准上,于DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B-Preview等不同规模模型上均实现显著提升:相比传统基于结果奖励的方法,准确率平均提升超3.2%,token效率翻倍;相较于现有过程奖励方法,准确率仍提升约2%,效率提高1.2倍。在多任务、多难度评估中,L2T平均准确率提升近3%,且在不同token预算下均保持稳定优势,展现出良好的泛化能力与鲁棒性。该成果已发表于人工智能顶会NeurIPS 2025,标志着中国在大模型推理优化领域取得重要进展。 业内专家认为,L2T框架为大模型推理效率提升提供了全新范式,其将信息论引入强化学习奖励设计,实现了从“结果导向”到“过程感知”的关键跃迁。该方法不仅提升了模型的推理质量,更显著降低了计算成本,对推动大模型在教育、科研、工业等实际场景中的落地具有重要意义。中国科学院软件研究所长期致力于人工智能基础理论与系统研发,在大模型安全、可解释性与高效推理方面持续突破,其研究成果已多次发表于NeurIPS、ICML等顶级会议,展现出强大的科研竞争力。

Verwandte Links