浙江大学团队提出OThink-R1:让大模型自主决定是否深度思考
近日,浙江大学硕士生张盛佳及其团队提出一种名为OThink-R1的新方法,旨在让大语言模型具备自主判断是否需要深度思考的能力,从而优化计算资源的使用效率。研究发现,当前主流的深度推理模型在面对简单问题如“1+1=?”时,仍会启动冗长的推理流程,这不仅延长了响应时间,也造成了算力浪费。相比之下,人类在处理这类问题时通常依靠直觉快速作答,体现出“快思考”与“慢思考”相结合的智慧。 受此启发,研究团队试图赋予大模型类似的人类思维模式:对简单任务直接给出答案,对复杂问题则展开深入分析。为此,他们首先分析了非推理模型(快思考)与深度推理模型(慢思考)在常识问答、小学数学等简单任务上的表现,系统梳理出大量推理链中的“必要推理”与“冗余推理”特征。通过识别并剔除冗余部分,构建了一套混合推理数据集,并基于该数据集对模型进行监督微调。 这一策略使模型能够在不牺牲准确性的前提下,学会根据问题难度自主决定是否启动深度思考。实验表明,OThink-R1显著减少了不必要的推理步骤,提升了推理效率,同时保持了在复杂任务上的高性能。该成果对突破“测试时扩展定律”(Test-time Scaling Law)具有重要意义,标志着大模型正从“一味增加计算量”转向“智能分配计算资源”的新阶段。 在研究过程中,团队面临诸多挑战。早期尝试使用强化学习(如GRPO)和直接奖励函数设计,均因模型指令遵循能力弱、输出不稳定而失败。随后采用DPO算法也因训练分布剧烈变化导致性能崩溃。最终,通过引入大模型辅助判断推理有效性,重构数据并采用监督微调,才实现了稳定且可迁移的快慢思考切换能力。 目前,OThink-R1仍依赖外部模型LLM-Judge来评估推理冗余,未来团队计划探索端到端的自动判断机制,进一步提升系统的自主性与实用性。该研究是OPPO与浙江大学联合攻关项目的重要成果,为下一代高效、智能的大模型发展提供了新思路。
