Pré-formation avec le masquage de mots entiers pour BERT chinois

Les Représentations Bidirectionnelles des Transformers (BERT) ont montré d'importants progrès dans diverses tâches de traitement du langage naturel (NLP), et leurs variantes successives ont été proposées pour améliorer encore davantage les performances des modèles de langage pré-entraînés. Dans cet article, nous visons d'abord à introduire la stratégie de masquage de mots entiers (wwm) pour le BERT chinois, ainsi qu'une série de modèles de langage pré-entraînés en chinois. Ensuite, nous proposons un modèle simple mais efficace appelé MacBERT, qui apporte plusieurs améliorations par rapport à RoBERTa. Plus particulièrement, nous proposons une nouvelle stratégie de masquage appelée Masked Language Model comme correction (Mac). Pour démontrer l'efficacité de ces modèles, nous créons une série de modèles de langage pré-entraînés en chinois comme nos baselines, y compris BERT, RoBERTa, ELECTRA, RBT, etc. Nous avons mené des expériences approfondies sur dix tâches NLP en chinois pour évaluer les modèles de langage pré-entraînés en chinois créés ainsi que le MacBERT proposé. Les résultats expérimentaux montrent que MacBERT peut atteindre des performances au niveau de l'état de l'art sur nombreuses tâches NLP, et nous présentons également une analyse détaillée avec plusieurs constats qui pourraient aider les recherches futures. Nous mettons nos modèles de langage pré-entraînés à disposition sous licence open source afin de faciliter davantage la communauté scientifique. Les ressources sont disponibles à l'adresse suivante : https://github.com/ymcui/Chinese-BERT-wwm