Command Palette

Search for a command to run...

15 天前

SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

Zhi Zheng Wee Sun Lee

SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

摘要

在某些场景下,大语言模型(LLM)的软思考(soft-thinking)推理范式能够超越传统的离散token链式思维(Chain-of-Thought, CoT)推理,凸显其研究与应用价值。然而,尽管离散token的CoT推理模式可通过策略优化算法(如组相对策略优化,GRPO)进行有效强化,将强化学习(Reinforcement Learning, RL)应用于软思考模式仍面临挑战。这一困难主要源于如何在软思考token中引入随机性,以及如何相应地更新软思考策略。因此,以往将软思考与GRPO结合的尝试,通常表现不如其离散token版本的GRPO。为充分释放软思考的潜力,本文提出一种新型策略优化算法——SofT-GRPO,用于在软思考推理范式下强化LLM。SofT-GRPO通过在logits中注入Gumbel噪声,采用Gumbel-Softmax技术避免软思考token偏离预训练嵌入空间,并结合策略梯度中的重参数化技巧。我们在参数规模介于15亿至70亿之间的多个基础LLM上进行了实验,结果表明,SofT-GRPO使软思考LLM在Pass@1指标上平均准确率提升0.13%,略优于离散token的GRPO;在Pass@32指标上,平均准确率更是显著提升2.19%。代码与模型权重已公开,获取地址为:https://github.com/zz1358m/SofT-GRPO-master

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习 | 论文 | HyperAI超神经