SpanBERT : Amélioration de la pré-formation par la représentation et la prédiction d’intervalles

Nous présentons SpanBERT, une méthode d'entraînement préalable conçue pour représenter et prédire de manière plus efficace des segments de texte. Notre approche étend BERT en (1) masquant des segments aléatoires contigus plutôt que des jetons individuels, et (2) en formant les représentations des limites de segment à prédire l'intégralité du contenu du segment masqué, sans s'appuyer sur les représentations individuelles des jetons qu'il contient. SpanBERT dépasse constamment BERT et nos lignes de base mieux ajustées, avec des améliorations significatives sur les tâches de sélection de segments telles que la réponse aux questions et la résolution de co-référence. En particulier, avec les mêmes données d'entraînement et la même taille de modèle que BERT-large, notre modèle unique obtient un score F1 de 94,6 % sur SQuAD 1.1 et de 88,7 % sur SQuAD 2.0. Nous atteignons également un nouveau niveau d'excellence sur la tâche de résolution de co-référence OntoNotes (79,6 % F1), des performances solides sur le banc d'essai d'extraction relationnelle TACRED, et nous montrons même des progrès sur GLUE.