3 个月前

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

摘要

确定合适的“北极星指标”对于提升基础模型的数学推理能力至关重要，尤其是在当前的评估体系要么过于简单，要么仅关注获取正确短答案的情况下。为解决这些问题，我们提出了 IMO-Bench，这是一个由顶尖专家小组审定的高级推理评估套件，专门针对国际数学奥林匹克竞赛（IMO）的水平——这是青年数学家最具声望的竞技舞台。IMO-AnswerBench 首先在 400 道涵盖广泛类型的奥数题目上测试模型，这些题目均具备可验证的简短答案。IMO-Proof Bench 则是更高阶的证明写作能力评估，包含基础与高级两个层级的 IMO 难度题目，并配有详细的评分标准，以支持自动化评分。这些基准在我们利用 Gemini Deep Think 模型（Luong 和 Lockhart, 2025）实现 IMO 2025 历史性金牌成绩的过程中发挥了关键作用。我们的模型在 IMO-AnswerBench 上取得了 80.0% 的得分，在高级版 IMO-Proof Bench 上达到 65.7%，分别领先于最佳非 Gemini 模型 6.9% 和 42.4%。此外，我们还证明了基于 Gemini 推理能力构建的自动评分系统与人工评分具有良好的一致性，并据此构建了 IMO-GradingBench，该基准包含 1000 条人工评分的证明文本，以推动长文本答案自动化评估的进一步发展。我们希望 IMO-Bench 能够助力社区在构建稳健数学推理能力方面取得进展，并已在此 https URL 发布该基准。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

摘要

确定合适的“北极星指标”对于提升基础模型的数学推理能力至关重要，尤其是在当前的评估体系要么过于简单，要么仅关注获取正确短答案的情况下。为解决这些问题，我们提出了 IMO-Bench，这是一个由顶尖专家小组审定的高级推理评估套件，专门针对国际数学奥林匹克竞赛（IMO）的水平——这是青年数学家最具声望的竞技舞台。IMO-AnswerBench 首先在 400 道涵盖广泛类型的奥数题目上测试模型，这些题目均具备可验证的简短答案。IMO-Proof Bench 则是更高阶的证明写作能力评估，包含基础与高级两个层级的 IMO 难度题目，并配有详细的评分标准，以支持自动化评分。这些基准在我们利用 Gemini Deep Think 模型（Luong 和 Lockhart, 2025）实现 IMO 2025 历史性金牌成绩的过程中发挥了关键作用。我们的模型在 IMO-AnswerBench 上取得了 80.0% 的得分，在高级版 IMO-Proof Bench 上达到 65.7%，分别领先于最佳非 Gemini 模型 6.9% 和 42.4%。此外，我们还证明了基于 Gemini 推理能力构建的自动评分系统与人工评分具有良好的一致性，并据此构建了 IMO-GradingBench，该基准包含 1000 条人工评分的证明文本，以推动长文本答案自动化评估的进一步发展。我们希望 IMO-Bench 能够助力社区在构建稳健数学推理能力方面取得进展，并已在此 https URL 发布该基准。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供