Command Palette
Search for a command to run...

초록
기초 모델의 수학적 추론 능력을 향상시키기 위해 적절한 '북스타' 지표를 선정하는 것은 매우 중요하다. 기존 평가 방식이 너무 단순하거나 짧은 정답을 얻는 데만 초점이 맞춰져 있기 때문이다. 이러한 문제를 해결하기 위해 우리는 국제수학올림피아드(IMO) — 젊은 수학자들에게 가장 영예로운 무대 — 의 수준을 정확히 타깃으로 삼은, 전문가 패널의 검토를 거친 고도화된 추론 평가 벤치마크인 IMO-Bench를 제안한다.IMO-AnswerBench는 검증 가능한 짧은 답을 요구하는 400개의 다양한 올림피아드 문제를 통해 모델의 성능을 평가한다. 다음 단계로, 증명 작성 능력을 평가하는 IMO-Proof Bench는 기본 및 고급 수준의 IMO 문제를 포함하며, 자동 평가를 가능하게 하기 위한 구체적인 채점 기준도 제공한다. 이러한 벤치마크들은 지니우스 딥씽크(Gemini Deep Think, Luong and Lockhart, 2025)를 활용해 2025년 IMO에서 금메달 수준의 역사적인 성과를 달성하는 데 핵심적인 역할을 했다. 우리의 모델은 IMO-AnswerBench에서 80.0%의 성능을 기록했으며, 고급 수준의 IMO-Proof Bench에서는 65.7%를 달성하여 최고의 비-Gemini 모델보다 각각 6.9%, 42.4%의 큰 격차를 확보했다. 또한, 지니우스 추론 기반 자동 채점 시스템이 인간 평가와 잘 일치함을 입증하였으며, 증명문에 대한 1,000건의 인간 채점 데이터를 바탕으로 IMO-GradingBench를 구축하여 장문 답변의 자동 평가 기술 발전을 지원하였다. 우리는 IMO-Bench가 공동체가 강건한 수학적 추론 능력을 향상시키는 데 기여하기를 기대하며, 이 벤치마크를 다음 URL에서 공개한다.