MedConceptsQA : Benchmark open source pour les questions-réponses sur les concepts médicaux

Nous présentons MedConceptsQA, un benchmark open source dédié à la question-réponse sur les concepts médicaux. Ce benchmark comprend des questions portant sur divers concepts médicaux, couvrant différentes catégories terminologiques : diagnostics, procédures et médicaments. Les questions sont classées en trois niveaux de difficulté : facile, moyen et difficile. Nous avons évalué ce benchmark à l’aide de divers modèles de langage à grande échelle (Large Language Models, LLM). Nos résultats montrent que les modèles LLM pré-entraînés sur des données médicales atteignent des taux de précision proches du hasard sur ce benchmark, malgré leur pré-entraînement sur des données médicales. En revanche, GPT-4 obtient une amélioration moyenne absolue de près de 27 % à 37 % par rapport aux modèles LLM cliniques (27 % en apprentissage zéro-shot, 37 % en apprentissage peu supervisé). Notre benchmark constitue une ressource précieuse pour évaluer la compréhension et la capacité de raisonnement des modèles de langage à grande échelle en matière de concepts médicaux. Il est disponible à l’adresse suivante : https://huggingface.co/datasets/ofir408/MedConceptsQA