DeepStruct : Préformation des modèles de langage pour la prédiction de structure

Nous présentons une méthode visant à améliorer les capacités de compréhension structurelle des modèles de langage. Contrairement aux approches précédentes qui affinent les modèles avec des augmentations spécifiques à la tâche, nous pré-entraînons les modèles de langage sur une collection de corpus indépendants des tâches afin de générer des structures à partir du texte. Notre pré-entraînement structuré permet un transfert zéro-shot des connaissances apprises par les modèles concernant les tâches structurelles. Nous étudions les performances de cette approche sur 28 jeux de données, couvrant 10 tâches de prédiction structurelle, notamment l'extraction d'information ouverte, l'extraction conjointe d'entités et de relations, la reconnaissance d'entités nommées, la classification de relations, l'étiquetage des rôles sémantiques, l'extraction d'événements, la résolution de co-référence, le test factuel (factual probe), la détection d'intention et le suivi d'état du dialogue. Nous renforçons davantage le pré-entraînement en utilisant des ensembles d'apprentissage spécifiques à chaque tâche. Nous montrons qu'un modèle de langage doté de 10 milliards de paramètres se transfère non trivialement vers la plupart des tâches et obtient des performances inédites sur 21 des 28 jeux de données que nous évaluons.