HyperAIHyperAI

Command Palette

Search for a command to run...

SciBERT : Un modèle de langage pré-entraîné pour le texte scientifique

Iz Beltagy Kyle Lo Arman Cohan

Résumé

L'obtention de données annotées à grande échelle pour les tâches de traitement du langage naturel (NLP) dans le domaine scientifique est un défi coûteux et complexe. Nous mettons en libre accès SciBERT, un modèle de langage préentraîné basé sur BERT (Devlin et al., 2018), afin de pallier le manque de données scientifiques étiquetées de haute qualité et à grande échelle. SciBERT exploite l'entraînement non supervisé sur un vaste corpus multidisciplinaire de publications scientifiques pour améliorer les performances sur les tâches de NLP scientifiques ultérieures. Nous évaluons ce modèle sur une série de tâches, incluant l'étiquetage séquentiel, la classification des phrases et l'analyse des dépendances, avec des jeux de données provenant d'une variété de domaines scientifiques. Nous montrons des améliorations statistiquement significatives par rapport à BERT et obtenons de nouveaux résultats d'état de l'art sur plusieurs de ces tâches. Le code source et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/allenai/scibert/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp