HyperAI超神经

睡眠时间计算:超越测试时的推理扩展

Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
发布日期: 4/18/2025
睡眠时间计算:超越测试时的推理扩展
摘要

扩展测试时计算已成为使大型语言模型(LLMs)能够解决复杂问题的关键因素,但这一方法伴随着高延迟和高昂的推理成本。我们引入了睡眠时计算,该方法允许模型在接收到查询之前离线“思考”上下文:通过预测用户可能提出的查询并预先计算有用的数据,我们可以显著降低测试时的计算需求。为了验证我们方法的有效性,我们创建了两个推理任务的修改版本——Stateful GSM-Symbolic 和 Stateful AIME。我们发现,睡眠时计算可以将实现相同准确率所需的测试时计算量减少约5倍,并且通过扩展睡眠时计算,我们可以在Stateful GSM-Symbolic任务上进一步提高准确率最多13%,在Stateful AIME任务上提高最多18%。此外,我们引入了多查询GSM-Symbolic(Multi-Query GSM-Symbolic),该方法通过在每个上下文中包含多个相关查询来扩展GSM-Symbolic。利用多查询GSM-Symbolic在相同上下文的相关查询之间分摊睡眠时计算,我们可以将每个查询的平均成本降低2.5倍。随后,我们进行了进一步分析以了解睡眠时计算在什么情况下最有效,发现用户查询的可预测性与睡眠时计算的有效性高度相关。最后,我们对将睡眠时计算应用于现实中的代理软件工程任务进行了案例研究。