il y a 2 mois

MEDITRON-70B : Échelle de la préformation médicale pour les grands modèles linguistiques

Zeming Chen; Alejandro Hernández Cano; Angelika Romanou; Antoine Bonnet; Kyle Matoba; Francesco Salvi; Matteo Pagliardini; Simin Fan; Andreas Köpf; Amirkeivan Mohtashami; Alexandre Sallinen; Alireza Sakhaeirad; Vinitra Swamy; Igor Krawczuk; Deniz Bayazit; Axel Marmet; Syrielle Montariol; Mary-Anne Hartley; Martin Jaggi; Antoine Bosselut

Voir les détails de l'article

MEDITRON-70B : Échelle de la préformation médicale pour les grands modèles linguistiques

Résumé

Les grands modèles de langage (LLMs) ont le potentiel de démocratiser l'accès aux connaissances médicales. Bien que de nombreux efforts aient été déployés pour exploiter et améliorer les capacités de connaissance et de raisonnement médicales des LLMs, les modèles résultants sont soit fermés (par exemple, PaLM, GPT-4) soit limités en taille (<= 13 milliards de paramètres), ce qui restreint leurs performances. Dans cette étude, nous améliorons l'accès aux grands modèles de langage médicaux en lançant MEDITRON : une suite de modèles de langage à source ouverte avec 7 milliards et 70 milliards de paramètres adaptés au domaine médical. MEDITRON s'appuie sur Llama-2 (grâce à notre adaptation du formateur distribué Megatron-LM d'Nvidia) et étend la préformation sur un corpus médical soigneusement sélectionné, comprenant des articles et résumés PubMed choisis ainsi que des lignes directrices médicales internationalement reconnues. Des évaluations réalisées à l'aide de quatre principaux benchmarks médicaux montrent des gains de performance significatifs par rapport à plusieurs références avancées avant et après le finetuning spécifique à la tâche. Dans l'ensemble, MEDITRON réalise un gain absolu de performance de 6 % par rapport à la meilleure référence publique dans sa classe de paramètres et 3 % par rapport à la référence la plus performante que nous avons fine-tunée à partir de Llama-2. Comparé aux modèles de langage fermés, MEDITRON-70B surpasse GPT-3.5 et Med-PaLM et se situe dans un intervalle de 5 % par rapport à GPT-4 et 10 % par rapport à Med-PaLM-2. Nous mettons à disposition notre code pour la curation du corpus préformé médical ainsi que les poids du modèle MEDITRON afin de stimuler le développement open-source de modèles de langage médicaux plus performants.