3 days ago
LAPO:通过长度自适应策略优化内化推理效率
Xingyu Wu; Yuchen Yan; Shangke Lyu; Linjuan Wu; Yiwen Qiu; Yongliang Shen; Weiming Lu; Jian Shao; Jun Xiao; Yueting Zhuang

摘要
大型推理模型通过扩展的思维链序列取得了显著的性能提升,然而这种计算自由度会导致即使是简单的问题也会生成过多的标记(token)。我们提出了长度自适应策略优化(Length-Adaptive Policy Optimization, LAPO),这是一种新的框架,将推理长度控制从外部约束转化为模型的内在能力。与现有方法通过硬性限制或依赖事后干预不同,LAPO使模型能够通过两阶段的强化学习过程,内化对适当推理深度的理解。在第一阶段,模型通过发现成功解题长度的统计分布来学习自然的推理模式;在第二阶段,这些模式作为元认知指导,被直接嵌入模型的推理上下文中,从而在推理过程中实现灵活性。在数学推理基准测试中的实验表明,LAPO可将标记使用量减少多达40.9%,同时提升准确率2.3%。我们的分析表明,经过LAPO训练的模型能够发展出根据问题复杂性分配计算资源的涌现能力,在不牺牲质量的前提下实现高效的推理。