2 个月前

简单的测试时缩放

Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
简单的测试时缩放
摘要

测试时扩展是一种有前景的新方法,通过在测试时增加额外的计算资源来提高语言模型的性能。最近,OpenAI 的 o1 模型展示了这一能力,但并未公开其方法论,这导致了许多复制尝试。我们旨在寻找一种最简单的方法来实现测试时扩展并获得强大的推理性能。首先,我们整理了一个包含 1,000 个问题及其推理过程的小数据集 s1K,并通过消融实验验证了三个标准:难度、多样性和质量。其次,我们开发了预算强制技术,以控制测试时的计算资源。该技术通过强行终止模型的思考过程或在其试图结束生成时多次追加“Wait”(等待)来延长思考时间,从而引导模型重新检查其答案,通常可以修正错误的推理步骤。在对 Qwen2.5-32B-Instruct 语言模型进行监督微调并配备预算强制技术后,我们的模型 s1 在竞赛数学问题上超过了 o1-preview 模型,最高提升了 27%(在 MATH 和 AIME24 数据集上)。此外,通过使用预算强制技术扩展 s1 模型的性能,可以在没有测试时干预的情况下进一步提升其表现:从 AIME24 数据集上的 50% 提升到 57%。我们的模型、数据和代码已开源发布于 https://github.com/simplescaling/s1。