Command Palette
Search for a command to run...
Zhi Zhou Yuhao Tan Zenan Li Yuan Yao Lan-Zhe Guo Yu-Feng Li Xiaoxing Ma

摘要
测试时扩展(Test-time scaling)旨在通过增加计算资源来提升大语言模型(LLMs)的推理性能。当前该领域中一种广泛采用的方法是基于采样的测试时扩展技术,其在推理阶段为给定输入生成多个推理路径,以增强模型的推理能力。然而,尽管该方法在实践中取得了显著成效,其理论基础仍鲜有系统性研究。本文首次构建了分析基于采样的测试时扩展方法的理论框架,该框架建立在置信度估计的视角之上。基于此框架,我们对两种主流范式——自洽性(self-consistency)与困惑度(perplexity)——进行了深入分析,揭示了其关键局限:自洽性方法存在较高的估计误差,而困惑度方法则表现出显著的建模误差,并可能引发估计误差收敛性的退化。为解决上述问题,我们提出RPC(Perplexity-Consistency and Reasoning Pruning)——一种融合理论洞见的混合方法,包含两个核心组件:困惑度一致性与推理剪枝。困惑度一致性结合了自洽性与困惑度的优势,将估计误差的收敛速度从线性提升至指数级,同时保持模型误差不变;推理剪枝则通过剔除低概率推理路径,有效防止性能退化。理论分析与在七个基准数据集上的实证结果均表明,RPC在降低推理误差方面具有显著潜力。值得注意的是,RPC在达到与自洽性相当的推理性能的同时,不仅显著提升了置信度的可靠性,还将采样成本降低了50%。相关代码与资源已公开,可访问:https://wnjxyk.github.io/RPC。