基于直觉:强化内在信心的高效测试时缩放
Ghasemabadi, Amirhosein ; Mills, Keith G. ; Li, Baochun ; Niu, Di
发布日期: 5/29/2025

摘要
测试时扩展(Test-Time Scaling, TTS)方法通常用于增强大型语言模型(Large Language Model, LLM)的推理能力,但这些方法往往伴随着巨大的计算成本,主要是由于对外部过程奖励模型(Process Reward Models, PRMs)或采样方法(如Best-of-N, BoN)的广泛依赖。本文介绍了一种高效的自引导TTS框架——直觉引导(Guided by Gut, GG),该框架在无需昂贵的外部验证器模型的情况下实现了与PRM相当的性能。我们的方法仅依靠内在的LLM信号,包括逐词置信度和步骤新颖性进行轻量级树搜索。一个关键创新点在于通过目标强化学习微调阶段提高了内部置信度估计的可靠性。在具有挑战性的数学推理基准上的实证评估表明,GG使较小规模的模型(例如1.5亿参数)能够达到或超过大规模模型(例如32亿至70亿参数)的准确性,同时将GPU内存使用量减少多达10倍。与基于PRM的方法相比,GG以8倍更快的推理速度和4-5倍更低的内存使用量实现了相似的准确性。此外,GG相较于BoN策略,将键值缓存(KV cache)内存使用量减少了约50%,从而使得TTS技术的部署更加高效和实用。