Command Palette
Search for a command to run...
Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

摘要
编程竞赛已逐渐成为评估大型语言模型(LLMs)推理与编码能力的关键基准。尽管现有基准在性能上取得了显著进展,但我们认为,当前的评估体系过度高估了模型的实际能力,掩盖了大型语言模型与顶尖人类程序员之间存在的显著差距。这一差距主要源于两个关键局限:基准题目在难度和覆盖范围上的不足,以及由低质量测试用例引发的评估偏差。为解决这些问题,我们提出了AetherCode——一个全新的基准,其题目源自国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛(ICPC)等顶级编程赛事,具有更广泛的覆盖范围和更高的难度水平。AetherCode进一步融合了通过自动化生成与人工精炼相结合方式构建的全面、专家验证的测试用例集,确保评估过程的严谨性与可靠性。通过将具有挑战性的题目设计与稳健的评估机制相结合,AetherCode为衡量大型语言模型的真实能力提供了更为准确的度量标准,并为未来代码推理研究设立了新的标杆。