vor 3 Monaten

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Zusammenfassung

Die Auswahl geeigneter Hauptmetriken ist entscheidend für die Weiterentwicklung der mathematischen Schlussfolgerungsfähigkeiten von Grundmodellen, insbesondere da bestehende Bewertungsmethoden entweder zu einfach sind oder sich ausschließlich auf korrekte kurze Antworten konzentrieren. Um diese Probleme anzugehen, stellen wir IMO-Bench vor – eine Reihe fortschrittlicher Bewertungsbenchmarks, die von einer Expertenjury aus führenden Fachleuten geprüft wurden und speziell auf das Niveau der Internationalen Mathematik-Olympiade (IMO) abzielen, der renommiertesten Plattform für junge Mathematiker. IMO-AnswerBench testet Modelle zunächst an 400 vielfältigen Olympiadeaufgaben mit überprüfbaren kurzen Antworten. IMO-ProofBench stellt die nächste Stufe der Bewertung dar und prüft die Fähigkeit zum Beweis schreiben. Er umfasst sowohl grundlegende als auch anspruchsvolle Aufgaben auf IMO-Niveau sowie detaillierte Beurteilungskriterien, die eine automatisierte Bewertung ermöglichen. Diese Benchmarks spielten eine entscheidende Rolle bei unserer historischen Leistung mit Goldniveau bei der IMO 2025 mit Gemini Deep Think (Luong und Lockhart, 2025). Unser Modell erzielte 80,0 % auf IMO-AnswerBench und 65,7 % auf dem anspruchsvollen IMO-ProofBench – deutlich über den besten Nicht-Gemini-Modellen, die mit 6,9 % und 42,4 % hinter uns zurückblieben. Zudem zeigten wir, dass autonome Korrekturtools, die auf der Schlussfolgerungsfähigkeit von Gemini basieren, gut mit menschlichen Beurteilungen korrelieren. Auf dieser Grundlage haben wir IMO-GradingBench entwickelt, eine Sammlung aus 1000 menschlich bewerteten Beweisen, um die Weiterentwicklung der automatisierten Bewertung von umfangreichen Antworten zu ermöglichen. Wir hoffen, dass IMO-Bench der Forschungsgemeinschaft dabei hilft, robuste mathematische Schlussfolgerungsfähigkeiten weiter voranzutreiben, und stellen es unter folgendem URL zur Verfügung: https://url.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zu robuster mathematischer Schlussfolgerung

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zu robuster mathematischer Schlussfolgerung

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zu robuster mathematischer Schlussfolgerung

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu