il y a 2 mois

SciBERT : Un modèle de langage pré-entraîné pour le texte scientifique

Iz Beltagy; Kyle Lo; Arman Cohan

Résumé

L'obtention de données annotées à grande échelle pour les tâches de traitement du langage naturel (NLP) dans le domaine scientifique est un défi coûteux et complexe. Nous mettons en libre accès SciBERT, un modèle de langage préentraîné basé sur BERT (Devlin et al., 2018), afin de pallier le manque de données scientifiques étiquetées de haute qualité et à grande échelle. SciBERT exploite l'entraînement non supervisé sur un vaste corpus multidisciplinaire de publications scientifiques pour améliorer les performances sur les tâches de NLP scientifiques ultérieures. Nous évaluons ce modèle sur une série de tâches, incluant l'étiquetage séquentiel, la classification des phrases et l'analyse des dépendances, avec des jeux de données provenant d'une variété de domaines scientifiques. Nous montrons des améliorations statistiquement significatives par rapport à BERT et obtenons de nouveaux résultats d'état de l'art sur plusieurs de ces tâches. Le code source et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/allenai/scibert/.