Command Palette
Search for a command to run...
Zhi Zheng Wee Sun Lee

摘要
在某些场景下,大语言模型(LLM)的软思考(soft-thinking)推理范式能够超越传统的离散token链式思维(Chain-of-Thought, CoT)推理,凸显其研究与应用价值。然而,尽管离散token的CoT推理模式可通过策略优化算法(如组相对策略优化,GRPO)进行有效强化,将强化学习(Reinforcement Learning, RL)应用于软思考模式仍面临挑战。这一困难主要源于如何在软思考token中引入随机性,以及如何相应地更新软思考策略。因此,以往将软思考与GRPO结合的尝试,通常表现不如其离散token版本的GRPO。为充分释放软思考的潜力,本文提出一种新型策略优化算法——SofT-GRPO,用于在软思考推理范式下强化LLM。SofT-GRPO通过在logits中注入Gumbel噪声,采用Gumbel-Softmax技术避免软思考token偏离预训练嵌入空间,并结合策略梯度中的重参数化技巧。我们在参数规模介于15亿至70亿之间的多个基础LLM上进行了实验,结果表明,SofT-GRPO使软思考LLM在Pass@1指标上平均准确率提升0.13%,略优于离散token的GRPO;在Pass@32指标上,平均准确率更是显著提升2.19%。代码与模型权重已公开,获取地址为:https://github.com/zz1358m/SofT-GRPO-master