HyperAI超神经
Back to Headlines

斯坦福团队提出分数推理:动态调整大规模语言模型的推理深度以提升效率和准确性

a day ago

斯坦福大学的研究人员提出了一种名为“分数推理”(Fractional Reasoning, FR)的新框架,旨在通过自适应推理控制改进大语言模型(LLM)在测试时的计算效率。这一方法的核心在于直接修改模型的内部表示,从而在推理过程中动态调整推理深度或反思水平。FR不仅不需要对输入文本进行修改,也无需额外的微调过程,适用于多种LLM。 尽管当前的LLM在多项任务中表现优异,但在测试时计算资源的分配策略方面仍然存在局限。现有的方法通常将所有问题视为同等对待,无论问题的难度如何,都使用相同程度的推理。这种做法可能导致对于简单问题的过度推理,从而浪费计算资源,或者对于复杂问题的推理不足,进而影响推理质量。此外,现有的推理增强技术如“思维链提示”(Chain-of-Thought Prompting, CoT)、结果奖励模型(Outcome Reward Models, ORMs)和过程奖励模型(Process Reward Models, PRMs)虽然有效,但不够灵活,不能根据具体问题调整推理深度。 FR框架具有几个显著特点: 1. 训练无关:FR框架本身不需要重新训练模型,可以直接应用于已经训练好的LLM。 2. 模型无关:无论是通用型还是专用型LLM,FR都能发挥其作用。 3. 直接修改内部表示:通过分析推理提示(如CoT或反思提示)对模型内部状态的影响,并应用一个可调节的缩放因子来引导模型的推理行为,从而实现推理深度的动态调整。 研究人员在三个需要多步推理的任务基准上对FR进行了评估,分别是GSM8K、MATH500和GPQA。评估结果显示,FR在所有基准上均优于传统的测试时计算方法,特别是在需要详细推理的复杂问题上表现尤为出色。FR通过调整提示的影响,使模型能够在解空间中更有效地探索,从而提高传统测试时计算方法的效率。 在GSM8K和MATH500的数据集以及GPQA的钻石分割数据集上,研究人员使用了两款高性能的开源指令调优模型——Qwen2.5-7B-Instruct和LLaMA-3.1-8B-Instruct。实验结果表明,FR不仅能够显著提升这些模型的推理性能,还能使其在不同的采样预算下保持较高的准确性。特别是在需要多步推理的问题上,FR的表现远超多数投票法和标准提示基线。 进一步的行为分析显示,增加FR的缩放参数会导致生成更长、更详细的多步推理输出,这验证了该框架能够连续、可预测地引导模型行为。此外,FR在应用到专门针对推理优化的模型(如DeepSeek-R1-Distill-Qwen-7B)时也同样有效,证明了其在不同类型LLM中的广泛适用性。 总的来说,FR框架为提高LLM在测试时的计算效率提供了一种新的解决方案。它通过自适应控制推理行为,使计算资源的分配更加精确和高效,克服了现有方法在推理深度调整上的局限性。不过,FR目前还需要预定义的推理方向和手动设置的缩放因子,未来的研究方向将是开发自动选择策略,实现完全动态的推理控制。

Related Links