StructBERT : Intégration des structures linguistiques dans l'apprentissage préalable pour une compréhension profonde du langage

Récemment, le modèle de langage pré-entraîné BERT (et sa version optimisée de manière robuste, RoBERTa) a attiré beaucoup d'attention dans le domaine de la compréhension du langage naturel (NLU) et a atteint une précision de pointe dans diverses tâches de NLU, telles que la classification des sentiments, l'inférence en langage naturel, la similarité textuelle sémantique et la réponse aux questions. Inspirés par les travaux d'exploration de linéarisation d'Elman [8], nous avons étendu BERT à un nouveau modèle, StructBERT, en intégrant des structures linguistiques lors de la pré-entraîne. Plus précisément, nous pré-entraînons StructBERT avec deux tâches auxiliaires pour tirer pleinement parti de l'ordre séquentiel des mots et des phrases, qui exploitent respectivement les structures linguistiques au niveau des mots et des phrases. En conséquence, le nouveau modèle est adapté aux différents niveaux de compréhension linguistique requis par les tâches en aval. Le StructBERT avec une pré-entraîne structurée donne des résultats empiriques surprenants sur une variété de tâches en aval, notamment en améliorant le meilleur niveau actuel du benchmark GLUE à 89,0 (dépassant tous les modèles publiés), le score F1 sur SQuAD v1.1 pour la réponse aux questions à 93,0 et la précision sur SNLI à 91,7.