BioBERT : un modèle de représentation linguistique pré-entraîné pour l'exploration textuelle biomédicale

L'exploration de texte biomédical gagne en importance avec la croissance rapide du nombre de documents biomédicaux. Grâce aux progrès réalisés dans le traitement automatique des langues (TAL), l'extraction d'informations précieuses à partir de la littérature biomédicale a connu un regain de popularité parmi les chercheurs, et l'apprentissage profond a accéléré le développement de modèles efficaces d'exploration de texte biomédical. Cependant, l'application directe des avancées du TAL à l'exploration de texte biomédical produit souvent des résultats insatisfaisants en raison du décalage de distribution des mots entre les corpus généraux et les corpus biomédicaux. Dans cet article, nous examinons comment le modèle de langage pré-entraîné BERT peut être adapté aux corpus biomédicaux. Nous présentons BioBERT (Représentations bidirectionnelles d'encodeurs issus des transformateurs pour l'exploration de texte biomédical), qui est un modèle de représentation linguistique spécifique au domaine pré-entraîné sur des corpus biomédicaux à grande échelle. Avec une architecture presque identique pour toutes les tâches, BioBERT surpasse largement BERT et les modèles précédents considérés comme l'état de l'art dans diverses tâches d'exploration de texte biomédical lorsqu'il est pré-entraîné sur des corpus biomédicaux. Bien que BERT obtienne des performances comparables à celles des modèles précédents considérés comme l'état de l'art, BioBERT les dépasse significativement dans les trois tâches représentatives suivantes d'exploration de texte biomédical : reconnaissance d'entités nommées en biologie médicale (amélioration du score F1 de 0,62 %), extraction de relations en biologie médicale (amélioration du score F1 de 2,80 %) et réponse à des questions en biologie médicale (amélioration du taux moyen de pertinence (MRR) de 12,24 %). Nos résultats d'analyse montrent que le pré-entraînement de BERT sur des corpus biomédicaux lui permet une meilleure compréhension des textes complexes en biologie médicale. Nous mettons librement à disposition les poids pré-entraînés de BioBERT sur https://github.com/naver/biobert-pretrained, ainsi que le code source pour le réglage fin (fine-tuning) de BioBERT sur https://github.com/dmis-lab/biobert.