Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen
Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen
Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan
Abstract
Wir stellen FrontierScience vor, einen Benchmark zur Bewertung der Fähigkeiten von KI-Systemen im Bereich expertenorientierter wissenschaftlicher Schlussfolgerung. FrontierScience besteht aus zwei Tracks: (1) Olympiade, der internationale Olympiadeaufgaben (auf dem Niveau der IPhO, IChO und IBO) enthält, und (2) Forschung, der PhD-Niveau-Aufgaben mit offenen Fragestellungen umfasst, die typische Teilprobleme wissenschaftlicher Forschung repräsentieren. Insgesamt umfasst FrontierScience mehrere hundert Fragen (160 im öffentlich zugänglichen Goldset), die sich über verschiedene Teilgebiete der Physik, Chemie und Biologie erstrecken – von der Quantenelektrodynamik bis hin zur synthetischen organischen Chemie. Die jüngsten Fortschritte bei KI-Modellen haben die bisherigen wissenschaftlichen Benchmarks weitgehend erschöpft, die häufig multiple-Choice-Fragen zu Fachwissen oder bereits veröffentlichte Informationen verwenden. Im Gegensatz dazu wurden alle Olympiadeaufgaben ursprünglich von internationalen Olympiade-Medaillengewinnern und Trainern nationaler Mannschaften erstellt, um die Schwierigkeit, Originalität und Faktengenauigkeit sicherzustellen. Alle Forschungsaufgaben wurden von Doktoranden, Postdoktoranden oder Professoren verfasst und überprüft. Für den Forschungstrack führen wir außerdem eine detaillierte, rubrikenbasierte Bewertungsarchitektur ein, die die Fähigkeiten von Modellen während des gesamten Lösungsprozesses einer Forschungsaufgabe bewertet – im Gegensatz zur Beurteilung einzelner Endantworten. In ersten Evaluierungen mehrerer Spitzenmodelle erreichte GPT-5.2 die bestmögliche Leistung auf FrontierScience mit einem Score von 77 % im Olympiade-Teil und 25 % im Forschungsteil.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.