HyperAI

摘要

在某些场景下，大语言模型（LLM）的软思考（soft-thinking）推理范式能够超越传统的离散token链式思维（Chain-of-Thought, CoT）推理，凸显其研究与应用价值。然而，尽管离散token的CoT推理模式可通过策略优化算法（如组相对策略优化，GRPO）进行有效强化，将强化学习（Reinforcement Learning, RL）应用于软思考模式仍面临挑战。这一困难主要源于如何在软思考token中引入随机性，以及如何相应地更新软思考策略。因此，以往将软思考与GRPO结合的尝试，通常表现不如其离散token版本的GRPO。为充分释放软思考的潜力，本文提出一种新型策略优化算法——SofT-GRPO，用于在软思考推理范式下强化LLM。SofT-GRPO通过在logits中注入Gumbel噪声，采用Gumbel-Softmax技术避免软思考token偏离预训练嵌入空间，并结合策略梯度中的重参数化技巧。我们在参数规模介于15亿至70亿之间的多个基础LLM上进行了实验，结果表明，SofT-GRPO使软思考LLM在Pass@1指标上平均准确率提升0.13%，略优于离散token的GRPO；在Pass@32指标上，平均准确率更是显著提升2.19%。代码与模型权重已公开，获取地址为：https://github.com/zz1358m/SofT-GRPO-master

SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

Zhi Zheng Wee Sun Lee

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

Zhi Zheng Wee Sun Lee

摘要

用 AI 构建 AI

Hyper Newsletters