HyperAIHyperAI
il y a 2 mois

Préformation de Modèles de Langue Spécifiques à un Domaine pour le Traitement Automatique du Langage Biomédical

Yu Gu; Robert Tinn; Hao Cheng; Michael Lucas; Naoto Usuyama; Xiaodong Liu; Tristan Naumann; Jianfeng Gao; Hoifung Poon
Préformation de Modèles de Langue Spécifiques à un Domaine pour le Traitement Automatique du Langage Biomédical
Résumé

L'entraînement préalable de grands modèles de langage neuronal, tels que BERT, a permis des gains impressionnants dans de nombreuses tâches de traitement du langage naturel (NLP). Cependant, la plupart des efforts d'entraînement préalable se concentrent sur des corpus de domaine général, comme les dépêches de presse et le Web. Une hypothèse largement répandue est que même l'entraînement préalable spécifique à un domaine peut bénéficier d'un point de départ avec des modèles de langage de domaine général. Dans cet article, nous remettons en question cette hypothèse en montrant que pour les domaines disposant d'un grand volume de texte non étiqueté, comme la biomédecine, l'entraînement préalable à partir de zéro entraîne des gains substantiels par rapport à l'entraînement continu des modèles de langage de domaine général. Pour faciliter cette investigation, nous avons compilé un benchmark complet pour le NLP biomédical à partir de jeux de données publiquement disponibles. Nos expériences montrent que l'entraînement préalable spécifique au domaine sert de solide fondation pour une large gamme de tâches en NLP biomédical, conduisant à des résultats nouveaux et meilleurs dans tous les domaines. De plus, en effectuant une évaluation approfondie des choix modélisationnels, tant pour l'entraînement préalable que pour le réglage fin spécifique aux tâches, nous découvrons que certaines pratiques courantes sont inutiles avec les modèles BERT, comme l'utilisation de schémas d'étiquetage complexes en reconnaissance d'entités nommées (NER). Pour aider à accélérer la recherche en NLP biomédical, nous avons rendu publics nos modèles pré-entraînés et spécifiques aux tâches d'avant-garde et créé un classement mettant en vedette notre benchmark BLURB (acronyme pour Biomedical Language Understanding & Reasoning Benchmark) accessible à l'adresse https://aka.ms/BLURB.

Préformation de Modèles de Langue Spécifiques à un Domaine pour le Traitement Automatique du Langage Biomédical | Articles de recherche récents | HyperAI