HyperAIHyperAI

Command Palette

Search for a command to run...

OThink-R1: KI-Modell entscheidet selbst, ob es tief denkt

近日,浙江大学硕士生张盛佳及其团队提出名为OThink-R1的新方法,旨在解决当前深度推理大模型中存在的冗余思考问题。研究发现,尽管如DeepSeek-R1、OpenAI o1等深度推理模型在复杂任务中表现优异,但在面对“1+1=?”或“修改作业”等简单问题时,仍会生成冗长的思维链,造成计算资源浪费。这一现象与人类的双系统思维模式相似:面对简单问题时依赖直觉(快思考),复杂问题则启用深度分析(慢思考)。受此启发,团队提出让大模型具备自主判断是否进行深度思考的能力,从而实现更高效的资源分配。 为实现这一目标,研究团队首先收集了非推理模型与深度推理模型在简单任务(如常识问答、小学数学题)上的表现数据,对比分析推理过程,识别出“必要推理”与“冗余推理”的特征。基于此,他们构建了一个混合推理思维链数据集,其中移除了冗余的深度思考步骤,保留了关键推理路径。随后,利用该数据集对深度推理模型进行监督微调,使其学会在简单问题上直接输出答案,而在复杂问题上启动深度思考。该方法有效缓解了过度推理问题,提升了模型推理效率,同时保持了在复杂任务上的高精度。 在研发过程中,团队曾尝试强化学习(如GRPO)和直接偏好优化(DPO)等策略,但均因模型指令遵循能力弱、输出不稳定或训练不收敛而失败。最终转向监督微调,虽初期效果较好,但泛化能力有限。进一步研究发现,部分原以为冗余的推理过程在某些场景下仍具必要性,因此团队引入大模型LLM-Judge对推理过程进行动态分类,区分有效与冗余思考,重构训练数据,显著提升了模型的适应性与稳定性。 OThink-R1的提出标志着大模型向更智能、更高效的方向迈进。该研究由OPPO与浙江大学联合开展,是探索“测试时扩展定律”(Test-time Scaling Law)的重要实践。尽管目前仍依赖外部评估工具判断推理冗余,未来团队计划实现端到端的自动切换机制,进一步推动大模型从“被动思考”向“自主决策”演进。 业内专家认为,OThink-R1为解决大模型推理效率瓶颈提供了新思路,尤其在实际应用中可显著降低延迟与能耗。该方法不仅适用于教育、客服等高频简单任务场景,也为构建更接近人类认知模式的AI系统奠定基础。随着模型自主性增强,未来大模型或将真正实现“该快则快,该慢则慢”的智能决策。

Verwandte Links

OThink-R1: KI-Modell entscheidet selbst, ob es tief denkt | Aktuelle Beiträge | HyperAI