HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Abstract

Wir stellen FrontierScience vor, einen Benchmark zur Bewertung der Fähigkeiten von KI-Systemen im Bereich expertenorientierter wissenschaftlicher Schlussfolgerung. FrontierScience besteht aus zwei Tracks: (1) Olympiade, der internationale Olympiadeaufgaben (auf dem Niveau der IPhO, IChO und IBO) enthält, und (2) Forschung, der PhD-Niveau-Aufgaben mit offenen Fragestellungen umfasst, die typische Teilprobleme wissenschaftlicher Forschung repräsentieren. Insgesamt umfasst FrontierScience mehrere hundert Fragen (160 im öffentlich zugänglichen Goldset), die sich über verschiedene Teilgebiete der Physik, Chemie und Biologie erstrecken – von der Quantenelektrodynamik bis hin zur synthetischen organischen Chemie. Die jüngsten Fortschritte bei KI-Modellen haben die bisherigen wissenschaftlichen Benchmarks weitgehend erschöpft, die häufig multiple-Choice-Fragen zu Fachwissen oder bereits veröffentlichte Informationen verwenden. Im Gegensatz dazu wurden alle Olympiadeaufgaben ursprünglich von internationalen Olympiade-Medaillengewinnern und Trainern nationaler Mannschaften erstellt, um die Schwierigkeit, Originalität und Faktengenauigkeit sicherzustellen. Alle Forschungsaufgaben wurden von Doktoranden, Postdoktoranden oder Professoren verfasst und überprüft. Für den Forschungstrack führen wir außerdem eine detaillierte, rubrikenbasierte Bewertungsarchitektur ein, die die Fähigkeiten von Modellen während des gesamten Lösungsprozesses einer Forschungsaufgabe bewertet – im Gegensatz zur Beurteilung einzelner Endantworten. In ersten Evaluierungen mehrerer Spitzenmodelle erreichte GPT-5.2 die bestmögliche Leistung auf FrontierScience mit einem Score von 77 % im Olympiade-Teil und 25 % im Forschungsteil.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen | Papers | HyperAI