GatorTron : Un grand modèle de langage clinique pour débloquer les informations des patients à partir des dossiers médicaux électroniques non structurés

L'intérêt pour le développement de systèmes d'intelligence artificielle (IA) capables de traiter et d'interpréter les dossiers médicaux électroniques (DME) ne cesse de croître. Le traitement du langage naturel (TLN) alimenté par des modèles de langage préentraînés est la technologie clé pour les systèmes d'IA médicale utilisant des récits cliniques. Cependant, il existe peu de modèles de langage clinique, le plus grand d'entre eux étant relativement petit avec 110 millions de paramètres (en comparaison avec des milliards de paramètres dans le domaine général). Il n'est pas clair comment des modèles de langage clinique à grande échelle, dotés de milliards de paramètres, peuvent aider les systèmes d'IA médicale à exploiter les DME non structurés. Dans cette étude, nous développons un grand modèle de langage clinique - GatorTron - à partir de zéro, en utilisant plus de 90 milliards de mots (dont plus de 82 milliards de mots provenant de textes cliniques dépersonnalisés) et nous l'évaluons systématiquement sur 5 tâches TLN cliniques, incluant l'extraction de concepts cliniques, l'extraction des relations médicales, la similarité textuelle sémantique, l'inférence du langage naturel (ILN) et la réponse aux questions médicales (RQM). Nous examinons comment (1) l'augmentation du nombre de paramètres et (2) l'augmentation de la taille des données d'entraînement peuvent bénéficier à ces tâches TLN. Les modèles GatorTron augmentent la taille du modèle de langage clinique de 110 millions à 8,9 milliards de paramètres et améliorent les performances sur 5 tâches TLN cliniques (par exemple, une amélioration respective des taux d'exactitude de 9,6 % et 9,5 % pour l'ILN et la RQM), ce qui peut être appliqué aux systèmes d'IA médicale pour améliorer la prestation des soins. Les modèles GatorTron sont disponibles au public sur : https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.