o3 d'OpenAI décroche la première place dans le classement des IA pour répondre aux questions scientifiques
L'IA o3 développée par OpenAI, les créateurs de ChatGPT, a été classée comme le meilleur outil d'intelligence artificielle pour répondre aux questions scientifiques dans divers domaines, selon une plateforme de benchmarks lancée la semaine dernière. SciArena, créée par l'Allen Institute for Artificial Intelligence (Ai2) à Seattle, Washington, a évalué 23 grands modèles de langage (LLMs) en fonction de leurs réponses à des questions scientifiques. Le classement a été réalisé par 102 chercheurs après plus de 13 000 votes. Le modèle o3 s'est distingué dans les domaines des sciences naturelles, de la santé, de l'ingénierie, ainsi que des humanités et des sciences sociales. Le DeepSeek-R1, développé par DeepSeek à Hangzhou, Chine, a pris la deuxième place dans les questions de sciences naturelles et la quatrième place en ingénierie. Le Gemini-2.5-Pro de Google s'est quant à lui classé troisième en sciences naturelles et cinquième en ingénierie et en santé. Selon Arman Cohan, chercheur scientifique à l'Ai2, la préférence des utilisateurs pour o3 pourrait résulter de son habileté à fournir beaucoup de détails sur les références citées et à produire des réponses techniquement nuancées. Toutefois, expliquer pourquoi les performances des différents modèles varient est complexe, car la plupart sont propriétaires. Les différences dans les données d'entraînement et les optimisations spécifiques aux modèles jouent probablement un rôle important. SciArena représente une avancée significative dans l'évaluation des capacités des modèles d'IA à accomplir certaines tâches, et c'est l'une des premières plates-formes à classer leur performance sur des tâches scientifiques grâce aux retours d'experts. « SciArena est une initiative positive qui encourage une évaluation attentive des tâches assistées par les LLMs », déclare Rahul Shome, chercheur en robotique et IA à l'Université nationale australienne à Canberra. Pour établir le classement des 23 LLMs, SciArena a demandé aux chercheurs de soumettre des questions scientifiques. Ces questions ont reçu des réponses de deux modèles choisis au hasard, qui ont appuyé leurs réponses avec des références tirées de Semantic Scholar, un outil de recherche en IA également créé par Ai2. Les utilisateurs ont alors voté pour déterminer quel modèle avait fourni la meilleure réponse, si les deux modèles étaient comparables ou si tous deux avaient mal performé. SciArena est désormais disponible publiquement, permettant aux utilisateurs de poser gratuitement des questions de recherche. Tous les utilisateurs reçoivent des réponses de deux modèles et peuvent voter sur leur performance, mais seuls les votes des utilisateurs vérifiés qui acceptent les conditions d'utilisation sont inclus dans le classement, qui sera fréquemment mis à jour, indique la société. La capacité de questionner les LLMs sur des sujets scientifiques et de faire confiance à leurs réponses aidera les chercheurs à rester au courant des dernières avancées dans leur domaine, souligne Jonathan Kummerfeld, chercheur en IA à l'Université de Sydney en Australie. « Cette plateforme aidera les chercheurs à découvrir des travaux qu'ilsauraient pu manquer autrement. » En somme, SciArena offre un outil précieux pour évaluer l'efficacité des modèles d'IA dans le domaine scientifique, en mettant l'accent sur l'exactitude, la pertinence et la richesse de leurs réponses. Les chercheurs peuvent ainsi profiter de cette ressource pour accéder à des informations bien fondées et mieux intégrer les récents progrès dans leur travail.