il y a 17 jours

Sur l’efficacité des Transformers biomédicaux compacts

Omid Rohanian, Mohammadmahdi Nouriborji, Samaneh Kouchaki, David A. Clifton

Résumé

Les modèles de langage pré-entraînés sur des corpus biomédicaux, tels que BioBERT, ont récemment montré des résultats prometteurs sur des tâches biomédicales en aval. Toutefois, de nombreux modèles pré-entraînés existants sont coûteux en ressources et intensifs en calcul, en raison de paramètres tels que la taille des embeddings, la dimension cachée ou le nombre de couches. La communauté du traitement automatique du langage naturel (NLP) a développé de nombreuses stratégies de compression de ces modèles, en s’appuyant sur des techniques telles que la pruning, la quantification et la distillation de connaissances, aboutissant à des modèles nettement plus rapides, plus compacts, et donc plus faciles à utiliser en pratique. Dans le même esprit, dans cet article, nous proposons six modèles légers : BioDistilBERT, BioTinyBERT, BioMobileBERT, DistilBioBERT, TinyBioBERT et CompactBioBERT, obtenus soit par distillation de connaissances à partir d’un modèle enseignant biomédical, soit par apprentissage continu sur le jeu de données PubMed via l’objectif de modélisation du langage masqué (Masked Language Modelling, MLM). Nous évaluons tous nos modèles sur trois tâches biomédicales et les comparons à BioBERT-v1.1 afin de concevoir des modèles légers efficaces, performant au niveau de leurs homologues plus volumineux. Tous les modèles seront publiés sur notre profil Hugging Face à l’adresse suivante : https://huggingface.co/nlpie, et les codes utilisés pour les expériences seront disponibles à l’adresse : https://github.com/nlpie-research/Compact-Biomedical-Transformers.