HyperAI超神经

Heimdall:生成式验证中的测试时缩放

Wenlei Shi, Xing Jin
发布日期: 4/17/2025
摘要

一个AI系统能够创建和维护知识的程度,取决于其自我验证这些知识的能力。近期关于长链思维推理的研究展示了大型语言模型(LLMs)在解决竞争性问题上的巨大潜力,但其验证能力仍显薄弱,且未得到充分探究。本文提出Heimdall,一款专长于长链思维验证的LLM,能够精准判断解决方案的正确性。通过纯强化学习,我们在竞争性数学问题上将验证准确率从62.5%提升至94.5%。借助重复采样的扩展,准确率进一步攀升至97.5%。经人类评估,Heimdall展现了卓越的泛化能力,成功识别出训练中未包含的复杂数学证明中的多数问题。此外,我们提出悲观验证法,以扩展Heimdall的功能,助力问题求解的规模化。该方法调用Heimdall评判来自求解模型的解答,并基于悲观原则,选择最可能正确且不确定性最小的解。以DeepSeek-R1-Distill-Qwen-32B作为求解模型,悲观验证在AIME2025上将解答准确率从54.2%提升至70.0%,计算预算增加16倍时达到83.3%。采用更强大的求解器Gemini 2.5 Pro,得分攀升至93.0%。最后,我们原型化了一个自动知识发现系统,这是一个三元系统,其中一方提出问题,另一方提供解答,第三方验证解答。利用NuminaMath的数据合成工作作为前两个组件,Heimdall有效识别了数据集中的问题记录,揭示出近半数数据存在缺陷,这一发现与NuminaMath最近的消融研究结果不谋而合。