Command Palette
Search for a command to run...

要約
適切な「北星指標(north-star metrics)」を設定することは、基盤モデルの数学的推論能力を向上させる上で極めて重要である。特に、現在の評価手法がいずれも難易度が低すぎたり、短い正解を導くことに限定されがちなためである。こうした課題に対処するため、本研究では国際数学オリンピック(IMO)——若手数学者にとって最も権威ある舞台——の水準に特化した、専門家パネルによって検証された高度な推論ベンチマーク「IMO-Bench」を提案する。IMO-AnswerBenchは、検証可能な短い解答が得られる400問の多様なオリンピック問題を用いて、モデルの解答能力を評価する。次に、証明記述能力を測る「IMO-Proof Bench」は、基礎的および上級レベルのIMO問題を含み、自動採点を可能にする詳細な採点基準を備えている。これらのベンチマークは、Gemini Deep Think(Luong と Lockhart, 2025)によるIMO 2025での歴史的金メダルレベルの成績達成に不可欠な役割を果たした。本モデルは、IMO-AnswerBenchで80.0%、上級版のIMO-Proof Benchで65.7%のスコアを達成し、最良の非Geminiモデルをそれぞれ6.9%および42.4%の大幅な差で上回った。また、Geminiの推論能力を活用して構築した自動採点システム(autograder)が人間の評価と良好な相関を示すことを実証し、証明の採点データ1000件を収集した「IMO-GradingBench」を構築することで、長文回答の自動評価のさらなる進展を可能にした。本研究は、IMO-Benchがコミュニティが堅牢な数学的推論能力の向上に貢献することを期待しており、本URLにて公開する。