BioELECTRA : encodeur préentraîné pour textes biomédicaux utilisant des discriminateurs

Les avancées récentes dans les stratégies de pré-entraînement en traitement du langage naturel (NLP) ont permis une amélioration significative des performances des modèles sur diverses tâches d’extraction de connaissances textuelles. Nous appliquons la technique de pré-entraînement « replaced token detection » proposée par ELECTRA, et entraînons un modèle linguistique biomédical à partir de zéro à l’aide de textes biomédicaux et d’un vocabulaire spécifiques. Nous introduisons BioELECTRA, un modèle d’encodeur linguistique spécialisé dans le domaine biomédical, adapté à partir d’ELECTRA. Nous évaluons notre modèle sur les benchmarks NLP biomédicaux BLURB et BLUE. BioELECTRA surpasser les modèles précédents et atteint l’état de l’art (SOTA) sur l’ensemble des 13 jeux de données du benchmark BLURB ainsi que sur les 4 jeux de données cliniques du benchmark BLUE, couvrant 7 tâches différentes de NLP. BioELECTRA, pré-entraîné sur les articles complets de PubMed et PMC, se distingue également fortement sur les jeux de données cliniques. Le modèle atteint un nouveau SOTA de 86,34 % (amélioration de 1,39 % en précision) sur le jeu de données MedNLI, et de 64 % (amélioration de 2,98 % en précision) sur PubMedQA.