Command Palette

Search for a command to run...

20 天前

更短但不更差:通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

更短但不更差:通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

摘要

经过逐步推理训练的大语言模型(LLMs)往往过于冗长,导致推理成本上升。标准的可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)流程为了提升训练效率,通常会过滤掉“简单”问题,使模型主要在需要更长推理链的难题上进行训练。这种做法导致输出长度分布向更高方向偏移,使得模型将“思考时间更长”误认为“思考质量更高”。在本研究中,我们发现保留并适度加权中等难度的问题,可作为一种隐式的长度正则化机制。通过让模型接触可解决的短链任务,能够有效约束其输出分布,防止输出出现无节制的冗长。结果是,模型在无需任何显式长度惩罚的情况下,自然涌现出“简洁性”——即在解决更复杂问题时,仍能保持较短的输出长度。在Qwen3-4B-Thinking-2507(支持16k token上下文)上采用该方法的RLVR实验表明,模型在保持基线pass@1 AIME25准确率的同时,生成的解题过程平均长度几乎缩短了一半。代码已开源,地址为:https://github.com/MBZUAI-Paris/Frugal-AI{GitHub},相关数据集与模型可于Hugging Face获取:https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更短但不更差:通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR | 论文 | HyperAI超神经