HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

Zu robuster mathematischer Schlussfolgerung

Zu robuster mathematischer Schlussfolgerung

Abstract

Die Auswahl geeigneter Hauptmetriken ist entscheidend für die Weiterentwicklung der mathematischen Schlussfolgerungsfähigkeiten von Grundmodellen, insbesondere da bestehende Bewertungsmethoden entweder zu einfach sind oder sich ausschließlich auf korrekte kurze Antworten konzentrieren. Um diese Probleme anzugehen, stellen wir IMO-Bench vor – eine Reihe fortschrittlicher Bewertungsbenchmarks, die von einer Expertenjury aus führenden Fachleuten geprüft wurden und speziell auf das Niveau der Internationalen Mathematik-Olympiade (IMO) abzielen, der renommiertesten Plattform für junge Mathematiker. IMO-AnswerBench testet Modelle zunächst an 400 vielfältigen Olympiadeaufgaben mit überprüfbaren kurzen Antworten. IMO-ProofBench stellt die nächste Stufe der Bewertung dar und prüft die Fähigkeit zum Beweis schreiben. Er umfasst sowohl grundlegende als auch anspruchsvolle Aufgaben auf IMO-Niveau sowie detaillierte Beurteilungskriterien, die eine automatisierte Bewertung ermöglichen. Diese Benchmarks spielten eine entscheidende Rolle bei unserer historischen Leistung mit Goldniveau bei der IMO 2025 mit Gemini Deep Think (Luong und Lockhart, 2025). Unser Modell erzielte 80,0 % auf IMO-AnswerBench und 65,7 % auf dem anspruchsvollen IMO-ProofBench – deutlich über den besten Nicht-Gemini-Modellen, die mit 6,9 % und 42,4 % hinter uns zurückblieben. Zudem zeigten wir, dass autonome Korrekturtools, die auf der Schlussfolgerungsfähigkeit von Gemini basieren, gut mit menschlichen Beurteilungen korrelieren. Auf dieser Grundlage haben wir IMO-GradingBench entwickelt, eine Sammlung aus 1000 menschlich bewerteten Beweisen, um die Weiterentwicklung der automatisierten Bewertung von umfangreichen Antworten zu ermöglichen. Wir hoffen, dass IMO-Bench der Forschungsgemeinschaft dabei hilft, robuste mathematische Schlussfolgerungsfähigkeiten weiter voranzutreiben, und stellen es unter folgendem URL zur Verfügung: https://url.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu robuster mathematischer Schlussfolgerung | Forschungsarbeiten | HyperAI