HyperAI超神经
3 days ago

分层预算策略优化用于自适应推理

Shangke Lyu; Linjuan Wu; Yuchen Yan; Xingyu Wu; Hao Li; Yongliang Shen; Peisheng Jiang; Weiming Lu; Jun Xiao; Yueting Zhuang
分层预算策略优化用于自适应推理
摘要

大型推理模型通过生成大量的思维链(chain-of-thought)实现了显著的性能提升,但在计算效率方面表现出明显不足,因为它们无论问题复杂程度如何,都采用统一的推理策略。我们提出了分层预算策略优化(Hierarchical Budget Policy Optimization, HBPO),这是一种强化学习框架,使模型能够在不牺牲能力的前提下学习特定于问题的推理深度。HBPO 解决了在以效率为导向的训练中出现的根本性挑战——探索空间坍塌(exploration space collapse),即对长输出长度的惩罚会系统性地使模型偏离必要的长推理路径。通过分层预算探索,我们的方法将回放样本划分为多个具有不同标记预算(token budget)的子组,旨在实现高效的资源分配,同时防止能力下降。我们引入了差异化的奖励机制,以创建与问题复杂性相适应的预算感知激励,使模型能够自然地建立任务需求与计算努力之间的对应关系。大量实验表明,HBPO 在四个推理基准测试中将平均标记使用量减少了高达 60.6%,同时提升了 3.14% 的准确性。与现有方法通过外部约束或依赖离散模式选择不同,HBPO 展现出一种涌现的自适应行为,即模型能够根据问题复杂性自动调整推理深度。我们的结果表明,推理效率与模型能力并非本质上相互冲突,通过结构合理的分层训练,可以在保持探索多样性的同时实现两者的同步优化。