大模型自悟深度思考:OThink-R1实现智能决策新突破
浙江大学硕士生张盛佳及其团队提出名为OThink-R1的新方法,旨在让大模型具备自主判断是否需要深度思考的能力,从而提升推理效率并优化计算资源使用。研究发现,当前深度推理大模型在面对简单问题如“1+1=?”时,仍会进行冗长的深度思考,造成资源浪费。而人类在处理此类问题时,往往依靠直觉快速作答,这启发团队探索“快思考”与“慢思考”的智能切换机制。 为实现这一目标,团队分析了非推理模型(快思考)和深度推理模型(慢思考)在简单任务上的表现,提取并对比其思维链,识别出“必要推理”与“冗余推理”的特征。在此基础上,构建了一套混合推理思维链数据集,将冗余的深度思考部分剔除,保留有效推理路径。随后,基于该数据集对深度推理模型进行监督微调,使其能根据问题难度自动决定是否开启深度思考。 尽管团队曾尝试使用强化学习(如GRPO)和DPO算法,但受限于模型指令遵循能力弱、输出不稳定等问题,效果不佳。最终采用监督微调方案,显著提升了模型的稳定性与泛化能力。实验表明,OThink-R1可在不牺牲准确率的前提下,有效减少不必要的推理过程,提升响应速度与资源利用率。 目前,OThink-R1仍依赖大模型“LLM-Judge”来判断推理是否冗余,未来团队计划探索端到端的自动切换机制,进一步实现更智能、更高效的推理模式。该研究是OPPO与浙江大学联合攻关项目的一部分,为突破“测试时扩展定律”(Test-time Scaling Law)提供了新思路,对推动大模型实用化具有重要意义。
