HyperAIHyperAI

Command Palette

Search for a command to run...

Science de la frontière : Évaluation de la capacité de l'IA à accomplir des tâches scientifiques au niveau d'expert

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Résumé

Nous présentons FrontierScience, un benchmark destiné à évaluer les capacités des systèmes d’intelligence artificielle en raisonnement scientifique de niveau expert. FrontierScience se compose de deux volets : (1) l’Olympiade, comprenant des problèmes issus des olympiades internationales (au niveau de l’IPhO, de l’IChO et de l’IBO) ; et (2) la Recherche, regroupant des problèmes ouverts, de niveau doctorat, représentatifs de sous-problèmes rencontrés dans la recherche scientifique. En tout, FrontierScience regroupe plusieurs centaines de questions (160 dans l’ensemble d’or open source), couvrant des domaines transversaux de la physique, de la chimie et de la biologie, allant de l’électrodynamique quantique à la chimie organique synthétique. Les progrès récents des modèles d’intelligence artificielle ont presque épuisé les performances sur les benchmarks scientifiques existants, qui reposent souvent sur des questions à choix multiples ou des informations déjà publiées. À l’inverse, tous les problèmes de l’Olympiade ont été initialement conçus par des médaillés d’olympiades internationales et des entraîneurs d’équipes nationales, garantissant ainsi un niveau de difficulté, d’originalité et de fidélité factuelle rigoureux. Tous les problèmes de Recherche ont été rédigés et validés par des scientifiques titulaires d’un doctorat (candidats au doctorat, chercheurs postdoctoraux ou professeurs). Pour la composante Recherche, nous introduisons également une architecture fondée sur un barème détaillé, permettant d’évaluer les capacités du modèle tout au long du processus de résolution d’une tâche de recherche, plutôt que de se limiter à juger une réponse isolée. Dans les évaluations initiales menées sur plusieurs modèles de pointe, GPT-5.2 se distingue comme le meilleur modèle sur FrontierScience, obtenant 77 % sur l’ensemble Olympiade et 25 % sur l’ensemble Recherche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Science de la frontière : Évaluation de la capacité de l'IA à accomplir des tâches scientifiques au niveau d'expert | Articles | HyperAI