Command Palette

Search for a command to run...

21 天前

面向鲁棒的数学推理

面向鲁棒的数学推理

摘要

确定合适的“北极星指标”对于提升基础模型的数学推理能力至关重要,尤其是在当前的评估体系要么过于简单,要么仅关注获取正确短答案的情况下。为解决这些问题,我们提出了 IMO-Bench,这是一个由顶尖专家小组审定的高级推理评估套件,专门针对国际数学奥林匹克竞赛(IMO)的水平——这是青年数学家最具声望的竞技舞台。IMO-AnswerBench 首先在 400 道涵盖广泛类型的奥数题目上测试模型,这些题目均具备可验证的简短答案。IMO-Proof Bench 则是更高阶的证明写作能力评估,包含基础与高级两个层级的 IMO 难度题目,并配有详细的评分标准,以支持自动化评分。这些基准在我们利用 Gemini Deep Think 模型(Luong 和 Lockhart, 2025)实现 IMO 2025 历史性金牌成绩的过程中发挥了关键作用。我们的模型在 IMO-AnswerBench 上取得了 80.0% 的得分,在高级版 IMO-Proof Bench 上达到 65.7%,分别领先于最佳非 Gemini 模型 6.9% 和 42.4%。此外,我们还证明了基于 Gemini 推理能力构建的自动评分系统与人工评分具有良好的一致性,并据此构建了 IMO-GradingBench,该基准包含 1000 条人工评分的证明文本,以推动长文本答案自动化评估的进一步发展。我们希望 IMO-Bench 能够助力社区在构建稳健数学推理能力方面取得进展,并已在此 https URL 发布该基准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向鲁棒的数学推理 | 论文 | HyperAI超神经