ERNIE 2.0 : Un cadre de pré-entraînement continu pour la compréhension linguistique

Récemment, les modèles pré-entraînés ont obtenu des résultats de pointe dans diverses tâches de compréhension linguistique, ce qui indique que la pré-formation sur des corpus à grande échelle peut jouer un rôle crucial dans le traitement du langage naturel. Les procédures actuelles de pré-entraînement se concentrent généralement sur l'entraînement du modèle avec plusieurs tâches simples pour saisir la cooccurrence des mots ou des phrases. Cependant, en plus de la cooccurrence, il existe d'autres informations lexicales, syntaxiques et sémantiques précieuses dans les corpus d'entraînement, telles que les entités nommées, la proximité sémantique et les relations discursives. Afin d'extraire au maximum ces informations lexicales, syntaxiques et sémantiques des corpus d'entraînement, nous proposons un cadre de pré-entraînement continu appelé ERNIE 2.0 (Enhanced Representation through kNowledge Integration Engine), qui construit et apprend progressivement des tâches de pré-entraînement par apprentissage multitâche constant. Les résultats expérimentaux montrent que ERNIE 2.0 surpasses BERT et XLNet dans 16 tâches, y compris les tâches anglaises sur les benchmarks GLUE et plusieurs tâches courantes en chinois. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/PaddlePaddle/ERNIE.