il y a 2 mois

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Résumé

Malgré les progrès réalisés en intelligence artificielle scientifique, un cadre cohérent pour l’Intelligence Générale Scientifique (IGS) — c’est-à-dire la capacité à concevoir, investiguer et raisonner de manière autonome à travers les domaines scientifiques — demeure absent. Nous proposons une définition opérationnelle de l’IGS fondée sur le Modèle d’Enquête Pratique (PIM : Délibération, Conception, Action, Perception), et la mettons en œuvre à travers quatre tâches alignées sur les pratiques des scientifiques : recherche approfondie, génération d’idées, expériences sèches et humides, ainsi que raisonnement expérimental. SGI-Bench comprend plus de 1 000 échantillons soigneusement sélectionnés par des experts, transversaux aux disciplines, inspirés des 125 grandes questions de Science, permettant une évaluation systématique des meilleurs modèles de langage actuels (LLM). Les résultats révèlent des lacunes significatives : taux faible de correspondance exacte (10 à 20 %) lors de la recherche approfondie, malgré une alignement au niveau des étapes ; idées manquant de faisabilité et de précision ; exécution de code élevée mais faible exactitude des résultats dans les expériences sèches ; faible fidélité des séquences dans les protocoles expérimentaux humides ; et défis persistants en raisonnement comparatif multimodal. Nous introduisons par ailleurs un apprentissage par renforcement à l’inférence (TTRL), qui optimise les récompenses de nouveauté enrichies par récupération au moment de l’inférence, améliorant ainsi la nouveauté des hypothèses sans nécessiter de réponse de référence. Ensemble, notre définition fondée sur le PIM, notre benchmark centré sur le flux de travail et nos observations empiriques établissent une base solide pour le développement de systèmes d’IA capables de participer véritablement à la découverte scientifique.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

LLM

Génération Augmentée Par La Recherche

Infrastructure D'ia

Approche/Framework

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

LLM

Génération Augmentée Par La Recherche

Infrastructure D'ia

Approche/Framework

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques | Articles | HyperAI

Command Palette

Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Sondering de l'intelligence générale scientifique des LLM à l'aide de workflows alignés sur les scientifiques

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao97 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao

Wanghan Xu Yuhao Zhou Yifan Zhou Qinglong Cao Shuo Li Jia Bu Bo Liu Yixin Chen Xuming He Xiangyu Zhao