4 days ago
MUR:基于动量不确定性的大语言模型推理
Hang Yan; Fangzhi Xu; Rongman Xu; Yifei Li; Jian Zhang; Haoran Luo; Xiaobao Wu; Luu Anh Tuan; Haiteng Zhao; Qika Lin; Jun Liu

摘要
大型语言模型(LLMs)在需要推理的任务上已取得了显著的性能表现,但提高其推理效率仍然是一个开放性挑战。尽管测试时缩放(Test-Time Scaling, TTS)能够提升推理质量,但它往往导致过度思考,从而在冗余计算上浪费大量token。本研究探讨了如何在不进行额外训练的情况下,高效且自适应地引导大型语言模型的测试时缩放。受物理学中“动量”概念的启发,我们提出了动量不确定性引导的推理方法(Momentum Uncertainty-guided Reasoning, MUR),该方法通过跟踪和累积每一步的不确定性,动态分配推理预算到关键的推理步骤中。为支持灵活的推理时控制,我们引入了gamma控制(gamma-control),这是一种通过单一超参数调节推理预算的简单机制。我们提供了深入的理论分析,以证明MUR在稳定性和偏差方面的优越性。MUR在四个具有挑战性的基准测试(MATH-500、AIME24、AIME25和GPQA-diamond)中,针对不同规模的最新Qwen3模型(1.7B、4B和8B)进行了全面评估。实验结果表明,MUR在平均情况下将计算量减少了超过50%,同时将准确率提高了0.62%-3.37%。