Les grands modèles linguistiques peuvent-ils raisonner sur des questions médicales ?

Bien que les grands modèles linguistiques (LLM) produisent souvent des résultats impressionnants, il reste incertain de leur performance dans des scénarios du monde réel exigeant des compétences de raisonnement avancées et une connaissance spécialisée. Nous avons entrepris d’étudier si les modèles à code fermé et ouvert (GPT-3.5, LLama-2, etc.) peuvent être efficacement utilisés pour répondre à des questions complexes fondées sur des situations réelles et raisonner à leur sujet. Nous nous sommes concentrés sur trois benchmarks médicaux populaires (MedQA-USMLE, MedMCQA et PubMedQA) ainsi que sur plusieurs scénarios d’instruction : Chain-of-Thought (CoT, raisonnement étape par étape), apprentissage par peu d’exemples (few-shot) et augmentation par récupération (retrieval augmentation). À partir d’une annotation experte des chaînes de raisonnement générées (CoT), nous avons constaté qu’InstructGPT est capable, dans de nombreux cas, de lire, raisonner et rappeler des connaissances expertes. Enfin, en exploitant les progrès récents en ingénierie des instructions (méthodes par peu d’exemples et ensembles), nous avons démontré que GPT-3.5 non seulement produit des distributions prédictives bien calibrées, mais atteint également le seuil de passage sur les trois jeux de données : MedQA-USMLE (60,2 %), MedMCQA (62,7 %) et PubMedQA (78,2 %). Les modèles à code ouvert rattrapent progressivement le retard : Llama-2 70B atteint également le seuil de passage sur MedQA-USMLE avec une précision de 62,5 %.