HardTests: 为LLM编码合成高质量测试用例
He, Zhongmou ; Choi, Yee Man ; Zhang, Kexun ; Ji, Jiabao ; Zhou, Junting ; Xu, Dejia ; Bercovich, Ivan ; Zhang, Aidan ; Li, Lei
发布日期: 6/2/2025

摘要
验证器在大型语言模型(LLM)推理中发挥着关键作用,这是后训练技术(如强化学习)所必需的。然而,对于复杂的编程问题,可靠的验证器难以获得,因为一个精心伪装的错误解决方案可能只有通过仔细编写的人工边缘案例才能检测出来,而这些边缘案例很难合成。为了解决这一问题,我们提出了一种名为HARDTESTGEN的高质量测试合成管道。通过该管道,我们整理了一个包含47,000个问题及其合成高质量测试的全面竞赛编程数据集HARDTESTS。与现有测试相比,HARDTESTGEN生成的测试在评估LLM生成代码时表现出更高的精度(高出11.3个百分点)和更高的召回率(高出17.5个百分点)。对于更难的问题,精度提升可达40个百分点。此外,HARDTESTS在模型训练方面也证明更加有效,这通过下游代码生成性能来衡量。我们将开源我们的数据集和合成管道,网址为 https://leililab.github.io/HardTests/。