HyperAI超神经

不假思索:法学硕士学会何时思考

Gongfan Fang, Xinyin Ma, Xinchao Wang
发布日期: 5/21/2025
不假思索:法学硕士学会何时思考
摘要

能够进行扩展链式思维推理的推理语言模型(Reasoning Language Models)在需要复杂逻辑推理的任务上展示了卓越的性能。然而,对所有查询都应用复杂的推理通常会导致显著的计算效率低下,尤其是在许多问题可以通过简单方法解决的情况下。这引发了一个开放性的问题:大型语言模型(LLMs)能否学会何时进行思考?为了解答这一问题,我们提出了一种可学习的框架——Thinkless,该框架使大型语言模型能够根据任务复杂性和模型自身的能力自适应地选择简短推理或长篇推理。Thinkless 在强化学习范式下进行训练,并使用两个控制标记: 用于简洁的回答, 用于详细的推理。我们的方法的核心是一种解耦组相对策略优化(Decoupled Group Relative Policy Optimization, DeGRPO)算法,该算法将混合推理的学习目标分解为两个部分:(1) 控制标记损失,用于管理推理模式的选择;(2) 回答损失,用于提高生成答案的准确性。这种解耦的形式使得每个目标的贡献可以得到精细控制,从而稳定了训练过程,并有效防止了在普通 GRPO 中观察到的崩溃现象。实证研究表明,在多个基准测试中,如 Minerva 代数、MATH-500 和 GSM8K,Thinkless 能够减少 50% 至 90% 的长链思考使用率,显著提高了推理语言模型的效率。代码可在 https://github.com/VainF/Thinkless 获取。