BioMegatron : un modèle linguistique plus vaste pour le domaine biomédical

Depuis quelques années, un nombre croissant de modèles de langage spécifiques au domaine biomédical a vu le jour, démontrant que les modèles pré-entraînés sur des textes biomédicaux surpassent significativement ceux entraînés sur des corpus généraux comme Wikipedia ou les livres sur les benchmarks du domaine biomédical. Toutefois, la plupart des travaux ne s’intéressent pas en profondeur aux facteurs influençant les performances des applications linguistiques dans ce domaine. De plus, l’impact de la taille des modèles sur les modèles spécialisés reste largement sous-étudié. Dans cette étude, nous menons une analyse empirique et évaluons plusieurs facteurs pouvant influencer les performances dans les applications linguistiques spécialisées : l’ensemble de vocabulaire submotif, la taille du modèle, le corpus utilisé pour le pré-entraînement et le transfert de domaine. Nous montrons des améliorations cohérentes sur les benchmarks grâce à notre modèle plus grand, BioMegatron, entraîné sur un corpus biomédical plus étendu, contribuant ainsi à une meilleure compréhension des modèles linguistiques spécialisés. Nous obtenons des progrès notables par rapport à l’état de l’art précédent (SOTA) sur des benchmarks standards de traitement automatique du langage biomédical, notamment en reconnaissance d’entités nommées, extraction de relations et réponse à des questions. Les points de contrôle du modèle et le code sont disponibles à l’adresse [https://ngc.nvidia.com] et [https://github.com/NVIDIA/NeMo].