HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Science de la frontière : Évaluation de la capacité de l'IA à accomplir des tâches scientifiques au niveau d'expert

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Abstract

Nous présentons FrontierScience, un benchmark destiné à évaluer les capacités des systèmes d’intelligence artificielle en raisonnement scientifique de niveau expert. FrontierScience se compose de deux volets : (1) l’Olympiade, comprenant des problèmes issus des olympiades internationales (au niveau de l’IPhO, de l’IChO et de l’IBO) ; et (2) la Recherche, regroupant des problèmes ouverts, de niveau doctorat, représentatifs de sous-problèmes rencontrés dans la recherche scientifique. En tout, FrontierScience regroupe plusieurs centaines de questions (160 dans l’ensemble d’or open source), couvrant des domaines transversaux de la physique, de la chimie et de la biologie, allant de l’électrodynamique quantique à la chimie organique synthétique. Les progrès récents des modèles d’intelligence artificielle ont presque épuisé les performances sur les benchmarks scientifiques existants, qui reposent souvent sur des questions à choix multiples ou des informations déjà publiées. À l’inverse, tous les problèmes de l’Olympiade ont été initialement conçus par des médaillés d’olympiades internationales et des entraîneurs d’équipes nationales, garantissant ainsi un niveau de difficulté, d’originalité et de fidélité factuelle rigoureux. Tous les problèmes de Recherche ont été rédigés et validés par des scientifiques titulaires d’un doctorat (candidats au doctorat, chercheurs postdoctoraux ou professeurs). Pour la composante Recherche, nous introduisons également une architecture fondée sur un barème détaillé, permettant d’évaluer les capacités du modèle tout au long du processus de résolution d’une tâche de recherche, plutôt que de se limiter à juger une réponse isolée. Dans les évaluations initiales menées sur plusieurs modèles de pointe, GPT-5.2 se distingue comme le meilleur modèle sur FrontierScience, obtenant 77 % sur l’ensemble Olympiade et 25 % sur l’ensemble Recherche.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Science de la frontière : Évaluation de la capacité de l'IA à accomplir des tâches scientifiques au niveau d'expert | Papers | HyperAI