Évaluation de la performance des grands modèles linguistiques sur le benchmark de compréhension et de raisonnement linguistique biomédical

Contexte : La capacité des grands modèles linguistiques (GML) à interpréter et à générer un texte similaire à celui des humains a suscité des spéculations quant à leur application en médecine et en recherche clinique. Toutefois, des données limitées sont disponibles pour guider des décisions fondées sur des preuves concernant leur pertinence pour des cas d’usage spécifiques.Méthodes : Nous avons évalué et comparé quatre GML à usage général (GPT-4, GPT-3.5-turbo, Flan-T5-XXL et Zephyr-7B-Beta) ainsi qu’un GML spécialisé dans le domaine de la santé (MedLLaMA-13B) sur un ensemble de 13 jeux de données — désignés sous le nom de Biomedical Language Understanding and Reasoning Benchmark (BLURB) — couvrant six tâches courantes de traitement automatique du langage médical : reconnaissance d’entités nommées (NER), extraction de relations, formulation PICO (population, intervention, comparaison, résultats), similarité entre phrases, classification de documents et réponse à des questions. Tous les modèles ont été évalués sans modification. La performance des modèles a été mesurée selon une variété de stratégies d’instruction (formalisées dans un cadre systématique et réutilisable) et s’appuyait sur les métriques d’évaluation standard et spécifiques à chaque tâche définies par BLURB.Résultats : Sur l’ensemble des tâches, GPT-4 a surpassé les autres GML, suivi de Flan-T5-XXL et GPT-3.5-turbo, puis de Zephyr-7B-Beta et MedLLaMA-13B. Les instructions les plus performantes pour GPT-4 et Flan-T5-XXL ont dépassé les résultats précédemment rapportés comme étant les meilleurs pour la tâche PubMedQA. Le modèle spécialisé dans le domaine médical, MedLLaMA-13B, a obtenu des scores inférieurs pour la plupart des tâches, à l’exception des tâches de réponse à des questions. Nous avons observé un impact significatif de l’ajustement stratégique de l’instruction décrivant la tâche, ainsi qu’une amélioration constante des performances lorsque des exemples sémantiquement proches du texte d’entrée étaient inclus dans l’instruction.Conclusion : Ces résultats apportent des preuves du potentiel que les GML peuvent offrir dans le domaine médical, tout en mettant en évidence l’importance d’une évaluation rigoureuse avant toute adoption pour des cas d’usage spécifiques. L’exploration continue de la manière dont ces technologies émergentes peuvent être adaptées au contexte de santé, associées à l’expertise humaine et renforcées par des mesures de contrôle qualité, constituera une recherche essentielle pour permettre une innovation responsable des GML dans le domaine médical.