HyperAIHyperAI

Command Palette

Search for a command to run...

4 小时前
LLM
推理

高效推理与平衡思维

Yulin Li Tengyao Tu Li Ding Junjie Wang Huiling Zhen Yixin Chen Yong Li Zhuotao Tian

摘要

大型推理模型(Large Reasoning Models, LRMs)展现出卓越的推理能力,但常面临“过度思考”与“思考不足”的双重困境:前者在简单问题上耗费冗余的计算步骤,后者则未能充分探索潜在的推理路径,即便模型本身具备相应能力。这些问题导致效率低下与潜在的不准确性,限制了其在资源受限场景中的实际部署。现有缓解过度思考的方法(如抑制反思性关键词或调整推理长度)往往可能无意中诱发思考不足,从而损害推理精度。为此,我们提出 ReBalance——一种无需训练的框架,旨在实现平衡且高效的推理。ReBalance 将置信度作为推理动态的连续指示器:通过高置信度方差识别过度思考,通过持续的高置信度识别思考不足。该方法利用小规模数据集聚合隐藏状态以构建推理模式原型,并据此计算引导向量,以调控 LRMs 的推理轨迹。通过基于实时置信度的动态控制函数,该框架可调节引导向量的强度与方向:在过度思考时剪枝冗余,在思考不足时促进探索。我们在涵盖 0.5B 至 32B 参数的四种模型上,于数学推理、通用问答及编程任务等九个基准测试中进行了广泛实验。结果表明,ReBalance 在提升准确性的同时有效减少了输出冗余,为高效、鲁棒的 LRM 部署提供了一种通用、无需训练且即插即用的策略。代码已开源:https://github.com/yu-lin-li/ReBalance

一句话总结

来自哈尔滨工业大学及合作机构的研究人员提出了 REBALANCE,这是一个无需训练的框架,利用基于置信度的引导向量动态平衡推理深度。该方法有效缓解了大型推理模型(LRMs)中的过度思考和思考不足问题,在无需微调的情况下,提升了数学、编程及通用问答基准测试中的准确率与效率。

主要贡献

  • 本文提出了 REBALANCE,这是一个无需训练的框架,通过利用置信度作为连续指标来识别过度思考(高方差)和思考不足(持续过度自信),从而实现高效推理。
  • 该方法将隐藏状态聚合为推理模式原型以计算引导向量,并通过动态控制函数根据模型的置信度水平实时调节,以剪枝冗余或促进探索。
  • 在涵盖 0.5B 至 32B 参数的四种模型及九个基准测试上的广泛实验表明,该方法在有效减少输出冗余的同时,提升了数学推理、通用问答和编程任务的准确率。

引言

大型推理模型(LRMs)擅长处理复杂任务,但常因在简单问题上过度思考或在困难问题上思考不足而导致效率低下,这阻碍了其在资源受限环境中的部署。此前试图通过抑制反思或缩短推理链来解决过度思考的尝试,往往因引发思考不足而适得其反,导致过早得出错误结论。作者利用置信度作为连续信号来区分这两种状态,并提出了 REBALANCE。这是一个无需训练的框架,能够动态引导模型的隐藏状态,在过度思考时剪枝冗余,在思考不足时鼓励探索。

数据集

  • 作者构建了一个涵盖数学、科学和编程的多样化评估套件,取材于 MATH-500、AIME、GSM8K、GPQA DIAMOND 和 LIVECODEBENCH 等成熟基准测试。
  • 数据集包含三个难度层级:简单集(如 GSM8K,1,319 道题;AMC23,40 道题);中等难度集(如 MATH-500,500 道题);以及困难集(包括 AIME24/AIME25,各 30 道题;GPQA DIAMOND,198 道题;OLYMPIADBENCH,675 道题;以及 LIVECODEBENCH v1,400 道题)。
  • 每个子集均适用特定的筛选和来源规则,例如使用官方 2024/2025 AIME 周期,为 GPQA 选择专家编写的研究生级别问题,并通过使用带执行单元测试的 v1 版本来确保 LIVECODEBENCH 的数据污染意识。
  • 在训练和评估方面,作者利用现有的标准划分,例如 GSM8K 的约 7.5k 训练集和约 1k 测试集,而将其他基准测试作为保留测试集以评估推理能力。
  • 处理流程在所有数学相关子集上应用统一的提示模板,指示模型逐步推理,并将最终答案格式化为 boxed 符号。

方法

作者提出了 ReBALANCE,这是一个无需训练的框架,旨在动态平衡大型推理模型(LRMs)中的过度思考和思考不足,从而在不牺牲准确率的前提下提升效率。该框架通过两个阶段运行:离线数据收集和带有动态引导的在线推理。请参阅框架图以全面了解系统架构。

为了有效控制推理过程,该方法首先利用逐步置信度和置信度方差,对易发生过度思考或思考不足的推理状态进行显式建模。过度思考被定义为一种低置信度且高方差的状态,反映了不稳定或振荡的推理轨迹。相反,思考不足被定义为持续的高置信度和低方差,表明过早收敛。请参阅展示这些不同推理行为及目标平衡状态的示例。

该框架从 LRM 的隐藏状态中提取引导向量,以引导模型远离这些不良模式。在离线阶段,在一个小型已见数据集上执行单次数据收集,以识别过度思考和思考不足的原型。作者分析了各层置信度信号的线性可解码性,以自动选择用于干预的最佳深层,如分层 R2R^2R2 分析所示。随后,引导向量被构建为过度思考原型与思考不足原型之间的归一化差值,从而在潜在空间中确立行为调节的方向。

在在线推理期间,动态控制函数根据实时模型状态自适应地调节引导强度和方向。该函数以当前的逐步置信度和置信度方差为输入来计算引导权重。该权重旨在将模型状态推离最近的推理边界,确保轨迹保持在平衡区域内。请参阅控制函数表面的可视化,它展示了引导强度如何根据置信度和方差水平非线性变化,以同时缓解过度思考和思考不足。

实验

  • 对推理长度分布的分析表明,现有的过度思考缓解方法往往因过早截断必要步骤而引发思考不足,而提出的 ReBALANCE 方法实现了平衡的缩减,在缩短输出的同时保持了准确率。
  • 实验表明,置信度方差和步骤级置信度是区分过度思考(高方差、低置信度)和思考不足(持续高置信度)的可靠指标,无需辅助模型即可实现细粒度的行为控制。
  • 在数学、科学、代码和常识推理等多样化基准测试上的评估证实,ReBALANCE 显著降低了 token 使用量和推理延迟,同时提升或保持了 Pass@1 准确率,其表现优于基于提示和基于外部验证器的基线方法。
  • 消融研究验证了基于置信度信号的动态控制优于静态调整,且从中等难度数据集提取的引导向量在不同领域和模型规模上均能有效泛化。
  • 在 NPU 设备和创意写作任务上的额外测试表明,该方法在专用硬件上保持了鲁棒的性能,并保留或增强了模型的创造性表达能力和语言多样性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供