HyperAIHyperAI

Command Palette

Search for a command to run...

Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Zusammenfassung

Wir stellen FrontierScience vor, einen Benchmark zur Bewertung der Fähigkeiten von KI-Systemen im Bereich expertenorientierter wissenschaftlicher Schlussfolgerung. FrontierScience besteht aus zwei Tracks: (1) Olympiade, der internationale Olympiadeaufgaben (auf dem Niveau der IPhO, IChO und IBO) enthält, und (2) Forschung, der PhD-Niveau-Aufgaben mit offenen Fragestellungen umfasst, die typische Teilprobleme wissenschaftlicher Forschung repräsentieren. Insgesamt umfasst FrontierScience mehrere hundert Fragen (160 im öffentlich zugänglichen Goldset), die sich über verschiedene Teilgebiete der Physik, Chemie und Biologie erstrecken – von der Quantenelektrodynamik bis hin zur synthetischen organischen Chemie. Die jüngsten Fortschritte bei KI-Modellen haben die bisherigen wissenschaftlichen Benchmarks weitgehend erschöpft, die häufig multiple-Choice-Fragen zu Fachwissen oder bereits veröffentlichte Informationen verwenden. Im Gegensatz dazu wurden alle Olympiadeaufgaben ursprünglich von internationalen Olympiade-Medaillengewinnern und Trainern nationaler Mannschaften erstellt, um die Schwierigkeit, Originalität und Faktengenauigkeit sicherzustellen. Alle Forschungsaufgaben wurden von Doktoranden, Postdoktoranden oder Professoren verfasst und überprüft. Für den Forschungstrack führen wir außerdem eine detaillierte, rubrikenbasierte Bewertungsarchitektur ein, die die Fähigkeiten von Modellen während des gesamten Lösungsprozesses einer Forschungsaufgabe bewertet – im Gegensatz zur Beurteilung einzelner Endantworten. In ersten Evaluierungen mehrerer Spitzenmodelle erreichte GPT-5.2 die bestmögliche Leistung auf FrontierScience mit einem Score von 77 % im Olympiade-Teil und 25 % im Forschungsteil.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp