HyperAIHyperAI
il y a 11 jours

Les grands modèles linguistiques codent des connaissances cliniques

Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
Les grands modèles linguistiques codent des connaissances cliniques
Résumé

Les grands modèles linguistiques (LLM) ont fait preuve de capacités remarquables en compréhension et génération du langage naturel, mais la barre de qualité pour les applications médicales et cliniques est particulièrement élevée. Aujourd’hui, les tentatives d’évaluation des connaissances cliniques des modèles reposent généralement sur des évaluations automatisées sur des jeux de données limités. Il n’existe pas de standard permettant d’évaluer de manière cohérente les prédictions et le raisonnement des modèles sur une large gamme de tâches. Pour pallier ce manque, nous proposons MultiMedQA, un benchmark combinant six jeux de données existants et ouverts de questions à réponse ouverte couvrant des examens médicaux professionnels, des recherches scientifiques et des interrogations posées par des patients. Nous introduisons également HealthSearchQA, un nouveau jeu de données à réponse libre composé de questions médicales effectivement recherchées en ligne. Nous proposons un cadre d’évaluation humaine des réponses des modèles selon plusieurs axes : exactitude factuelle, précision, risque potentiel de préjudice et biais. En outre, nous évaluons PaLM (un LLM de 540 milliards de paramètres) et sa variante ajustée par instruction, Flan-PaLM, sur MultiMedQA. En combinant différentes stratégies d’instruction (prompting), Flan-PaLM atteint des performances de pointe sur chaque jeu de données à choix multiples de MultiMedQA (MedQA, MedMCQA, PubMedQA, sujets cliniques du MMLU), notamment une précision de 67,6 % sur MedQA (questions de l’examen national américain de licence médicale), dépassant ainsi l’état de l’art précédent de plus de 17 %. Toutefois, l’évaluation humaine révèle des lacunes importantes dans les réponses de Flan-PaLM. Pour remédier à cela, nous introduisons une méthode d’ajustement par instruction (instruction prompt tuning), une approche efficace en termes de paramètres pour aligner les LLM sur de nouveaux domaines à l’aide de très peu d’exemples. Le modèle résultant, Med-PaLM, montre des performances encourageantes, mais reste inférieur à celles des cliniciens. Nous démontrons que la compréhension, la capacité de rappel des connaissances et le raisonnement médical s’améliorent avec l’augmentation de la taille du modèle et l’application de l’instruction par prompt, suggérant un potentiel réel d’utilisation des LLM en médecine. Nos évaluations humaines mettent en lumière des limites importantes des modèles actuels, renforçant ainsi l’importance de développer à la fois des cadres d’évaluation rigoureux et des méthodes innovantes afin de concevoir des LLM sûrs et utiles pour les applications cliniques.

Les grands modèles linguistiques codent des connaissances cliniques | Articles de recherche récents | HyperAI