vor 7 Monaten

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

Wir stellen FrontierScience vor, einen Benchmark zur Bewertung der Fähigkeiten von KI-Systemen im Bereich expertenorientierter wissenschaftlicher Schlussfolgerung. FrontierScience besteht aus zwei Tracks: (1) Olympiade, der internationale Olympiadeaufgaben (auf dem Niveau der IPhO, IChO und IBO) enthält, und (2) Forschung, der PhD-Niveau-Aufgaben mit offenen Fragestellungen umfasst, die typische Teilprobleme wissenschaftlicher Forschung repräsentieren. Insgesamt umfasst FrontierScience mehrere hundert Fragen (160 im öffentlich zugänglichen Goldset), die sich über verschiedene Teilgebiete der Physik, Chemie und Biologie erstrecken – von der Quantenelektrodynamik bis hin zur synthetischen organischen Chemie. Die jüngsten Fortschritte bei KI-Modellen haben die bisherigen wissenschaftlichen Benchmarks weitgehend erschöpft, die häufig multiple-Choice-Fragen zu Fachwissen oder bereits veröffentlichte Informationen verwenden. Im Gegensatz dazu wurden alle Olympiadeaufgaben ursprünglich von internationalen Olympiade-Medaillengewinnern und Trainern nationaler Mannschaften erstellt, um die Schwierigkeit, Originalität und Faktengenauigkeit sicherzustellen. Alle Forschungsaufgaben wurden von Doktoranden, Postdoktoranden oder Professoren verfasst und überprüft. Für den Forschungstrack führen wir außerdem eine detaillierte, rubrikenbasierte Bewertungsarchitektur ein, die die Fähigkeiten von Modellen während des gesamten Lösungsprozesses einer Forschungsaufgabe bewertet – im Gegensatz zur Beurteilung einzelner Endantworten. In ersten Evaluierungen mehrerer Spitzenmodelle erreichte GPT-5.2 die bestmögliche Leistung auf FrontierScience mit einem Score von 77 % im Olympiade-Teil und 25 % im Forschungsteil.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 7 Monaten

Benchmarks

Reasoning

Datensatz

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 7 Monaten

Benchmarks

Reasoning

Datensatz

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters