Command Palette
Search for a command to run...
Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques
Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques
Abstract
Malgré les progrès réalisés en intelligence artificielle scientifique, un cadre cohérent pour l’Intelligence Générale Scientifique (IGS) — c’est-à-dire la capacité à concevoir, investiguer et raisonner de manière autonome à travers les domaines scientifiques — demeure absent. Nous proposons une définition opérationnelle de l’IGS fondée sur le Modèle d’Enquête Pratique (PIM : Délibération, Conception, Action, Perception), et la mettons en œuvre à travers quatre tâches alignées sur les pratiques des scientifiques : recherche approfondie, génération d’idées, expériences sèches et humides, ainsi que raisonnement expérimental. SGI-Bench comprend plus de 1 000 échantillons soigneusement sélectionnés par des experts, transversaux aux disciplines, inspirés des 125 grandes questions de Science, permettant une évaluation systématique des meilleurs modèles de langage actuels (LLM). Les résultats révèlent des lacunes significatives : taux faible de correspondance exacte (10 à 20 %) lors de la recherche approfondie, malgré une alignement au niveau des étapes ; idées manquant de faisabilité et de précision ; exécution de code élevée mais faible exactitude des résultats dans les expériences sèches ; faible fidélité des séquences dans les protocoles expérimentaux humides ; et défis persistants en raisonnement comparatif multimodal. Nous introduisons par ailleurs un apprentissage par renforcement à l’inférence (TTRL), qui optimise les récompenses de nouveauté enrichies par récupération au moment de l’inférence, améliorant ainsi la nouveauté des hypothèses sans nécessiter de réponse de référence. Ensemble, notre définition fondée sur le PIM, notre benchmark centré sur le flux de travail et nos observations empiriques établissent une base solide pour le développement de systèmes d’IA capables de participer véritablement à la découverte scientifique.