ERNIE : Représentation linguistique améliorée avec entités informatives

Les modèles de représentation linguistique neuronale tels que BERT, pré-entraînés sur de grands corpus textuels, sont capables de capturer efficacement des motifs sémantiques riches à partir de texte brut et peuvent être affinés pour améliorer constamment les performances de diverses tâches en traitement du langage naturel (NLP). Cependant, la plupart des modèles linguistiques pré-entraînés actuels ne prennent pas en compte l'intégration des graphes de connaissances (KGs), qui peuvent fournir des faits structurés riches pour une meilleure compréhension du langage. Nous soutenons que les entités informatives dans les KGs peuvent enrichir la représentation linguistique avec des connaissances externes. Dans cet article, nous utilisons à la fois de grands corpus textuels et des KGs pour entraîner un modèle de représentation linguistique amélioré (ERNIE), capable d'exploiter simultanément les informations lexicographiques, syntaxiques et de connaissance. Les résultats expérimentaux ont démontré que ERNIE réalise des améliorations significatives sur diverses tâches guidées par la connaissance, tout en étant comparable au modèle d'avant-garde BERT sur d'autres tâches courantes en NLP. Le code source de cet article est disponible à l'adresse suivante : https://github.com/thunlp/ERNIE.