Zu robuster mathematischer Schlussfolgerung

Abstract
Die Auswahl geeigneter Hauptmetriken ist entscheidend für die Weiterentwicklung der mathematischen Schlussfolgerungsfähigkeiten von Grundmodellen, insbesondere da bestehende Bewertungsmethoden entweder zu einfach sind oder sich ausschließlich auf korrekte kurze Antworten konzentrieren. Um diese Probleme anzugehen, stellen wir IMO-Bench vor – eine Reihe fortschrittlicher Bewertungsbenchmarks, die von einer Expertenjury aus führenden Fachleuten geprüft wurden und speziell auf das Niveau der Internationalen Mathematik-Olympiade (IMO) abzielen, der renommiertesten Plattform für junge Mathematiker. IMO-AnswerBench testet Modelle zunächst an 400 vielfältigen Olympiadeaufgaben mit überprüfbaren kurzen Antworten. IMO-ProofBench stellt die nächste Stufe der Bewertung dar und prüft die Fähigkeit zum Beweis schreiben. Er umfasst sowohl grundlegende als auch anspruchsvolle Aufgaben auf IMO-Niveau sowie detaillierte Beurteilungskriterien, die eine automatisierte Bewertung ermöglichen. Diese Benchmarks spielten eine entscheidende Rolle bei unserer historischen Leistung mit Goldniveau bei der IMO 2025 mit Gemini Deep Think (Luong und Lockhart, 2025). Unser Modell erzielte 80,0 % auf IMO-AnswerBench und 65,7 % auf dem anspruchsvollen IMO-ProofBench – deutlich über den besten Nicht-Gemini-Modellen, die mit 6,9 % und 42,4 % hinter uns zurückblieben. Zudem zeigten wir, dass autonome Korrekturtools, die auf der Schlussfolgerungsfähigkeit von Gemini basieren, gut mit menschlichen Beurteilungen korrelieren. Auf dieser Grundlage haben wir IMO-GradingBench entwickelt, eine Sammlung aus 1000 menschlich bewerteten Beweisen, um die Weiterentwicklung der automatisierten Bewertung von umfangreichen Antworten zu ermöglichen. Wir hoffen, dass IMO-Bench der Forschungsgemeinschaft dabei hilft, robuste mathematische Schlussfolgerungsfähigkeiten weiter voranzutreiben, und stellen es unter folgendem URL zur Verfügung: https://url.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.