HyperAIHyperAI

Command Palette

Search for a command to run...

Les grands modèles linguistiques peuvent-ils raisonner sur des questions médicales ?

Valentin Liévin Christoffer Egeberg Hother Andreas Geert Motzfeldt Ole Winther

Résumé

Bien que les grands modèles linguistiques (LLM) produisent souvent des résultats impressionnants, il reste incertain de leur performance dans des scénarios du monde réel exigeant des compétences de raisonnement avancées et une connaissance spécialisée. Nous avons entrepris d’étudier si les modèles à code fermé et ouvert (GPT-3.5, LLama-2, etc.) peuvent être efficacement utilisés pour répondre à des questions complexes fondées sur des situations réelles et raisonner à leur sujet. Nous nous sommes concentrés sur trois benchmarks médicaux populaires (MedQA-USMLE, MedMCQA et PubMedQA) ainsi que sur plusieurs scénarios d’instruction : Chain-of-Thought (CoT, raisonnement étape par étape), apprentissage par peu d’exemples (few-shot) et augmentation par récupération (retrieval augmentation). À partir d’une annotation experte des chaînes de raisonnement générées (CoT), nous avons constaté qu’InstructGPT est capable, dans de nombreux cas, de lire, raisonner et rappeler des connaissances expertes. Enfin, en exploitant les progrès récents en ingénierie des instructions (méthodes par peu d’exemples et ensembles), nous avons démontré que GPT-3.5 non seulement produit des distributions prédictives bien calibrées, mais atteint également le seuil de passage sur les trois jeux de données : MedQA-USMLE (60,2 %), MedMCQA (62,7 %) et PubMedQA (78,2 %). Les modèles à code ouvert rattrapent progressivement le retard : Llama-2 70B atteint également le seuil de passage sur MedQA-USMLE avec une précision de 62,5 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp