HyperAIHyperAI

Command Palette

Search for a command to run...

Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques

Abstract

Malgré les progrès réalisés en intelligence artificielle scientifique, un cadre cohérent pour l’Intelligence Générale Scientifique (IGS) — c’est-à-dire la capacité à concevoir, investiguer et raisonner de manière autonome à travers les domaines scientifiques — demeure absent. Nous proposons une définition opérationnelle de l’IGS fondée sur le Modèle d’Enquête Pratique (PIM : Délibération, Conception, Action, Perception), et la mettons en œuvre à travers quatre tâches alignées sur les pratiques des scientifiques : recherche approfondie, génération d’idées, expériences sèches et humides, ainsi que raisonnement expérimental. SGI-Bench comprend plus de 1 000 échantillons soigneusement sélectionnés par des experts, transversaux aux disciplines, inspirés des 125 grandes questions de Science, permettant une évaluation systématique des meilleurs modèles de langage actuels (LLM). Les résultats révèlent des lacunes significatives : taux faible de correspondance exacte (10 à 20 %) lors de la recherche approfondie, malgré une alignement au niveau des étapes ; idées manquant de faisabilité et de précision ; exécution de code élevée mais faible exactitude des résultats dans les expériences sèches ; faible fidélité des séquences dans les protocoles expérimentaux humides ; et défis persistants en raisonnement comparatif multimodal. Nous introduisons par ailleurs un apprentissage par renforcement à l’inférence (TTRL), qui optimise les récompenses de nouveauté enrichies par récupération au moment de l’inférence, améliorant ainsi la nouveauté des hypothèses sans nécessiter de réponse de référence. Ensemble, notre définition fondée sur le PIM, notre benchmark centré sur le flux de travail et nos observations empiriques établissent une base solide pour le développement de systèmes d’IA capables de participer véritablement à la découverte scientifique.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques | Papers | HyperAI