HyperAIHyperAI
il y a 17 jours

Les petits modèles linguistiques acquièrent des compétences améliorées en raisonnement à partir de manuels médicaux

Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang
Les petits modèles linguistiques acquièrent des compétences améliorées en raisonnement à partir de manuels médicaux
Résumé

Bien que les avancées récentes des modèles linguistiques massifs (LM) commerciaux aient montré des résultats prometteurs dans des tâches médicales, leur nature propriétaire soulève des préoccupations importantes en matière de confidentialité et de sécurité, freinant leur adoption généralisée dans le domaine médical. Malgré les efforts visant à développer des modèles open-source, leur nombre limité de paramètres entraîne souvent une capacité insuffisante de raisonnement multi-étapes, nécessaire pour résoudre des problèmes médicaux complexes. Pour remédier à ce défaut, nous introduisons Meerkat, une nouvelle famille de systèmes d’intelligence artificielle médicale comprenant des modèles de 7 à 70 milliards de paramètres. Ces modèles ont été entraînés à l’aide de notre nouveau jeu de données synthétiques, constitué de parcours de raisonnement en chaîne de haute qualité extraits de 18 manuels médicaux, ainsi que de divers jeux de données variés pour l’accomplissement d’instructions. Nos systèmes ont atteint une précision remarquable sur six benchmarks médicaux, surpassant de loin les meilleurs modèles précédents tels que MediTron, BioMistral et GPT-3.5. Notamment, Meerkat-7B est le premier modèle de 7 milliards de paramètres à franchir pour la première fois le seuil de passage à l’examen national américain de licence médicale (USMLE), tandis que Meerkat-70B dépasse GPT-4 en moyenne de 1,3 %. De plus, Meerkat-70B a correctement diagnostiqué 21 cas cliniques complexes sur 38, dépassant la performance humaine (13,8) et s’approchant étroitement de celle de GPT-4 (21,8). Contrairement aux modèles petits existants, nos systèmes fournissent des réponses plus détaillées et en format libre aux requêtes cliniques, s’approchant du niveau de performance des grands modèles commerciaux. Ce progrès réduit considérablement l’écart de performance par rapport aux grands modèles linguistiques, démontrant ainsi l’efficacité de Meerkat dans la résolution de défis médicaux complexes.

Les petits modèles linguistiques acquièrent des compétences améliorées en raisonnement à partir de manuels médicaux | Articles de recherche récents | HyperAI