HyperAIHyperAI
il y a 4 mois

MPNet : Pré-entraînement masqué et permuté pour la compréhension linguistique

Kaitao Song; Xu Tan; Tao Qin; Jianfeng Lu; Tie-Yan Liu
MPNet : Pré-entraînement masqué et permuté pour la compréhension linguistique
Résumé

BERT adopte le modèle de langage masqué (MLM) pour l'entraînement préalable et est l'un des modèles d'entraînement préalable les plus réussis. Comme BERT néglige la dépendance entre les jetons prédits, XLNet introduit le modèle de langage permuté (PLM) pour l'entraînement préalable afin de résoudre ce problème. Cependant, XLNet ne tire pas pleinement parti des informations de position d'une phrase, ce qui entraîne une discordance de position entre l'entraînement préalable et le réglage fin. Dans cet article, nous proposons MPNet, une nouvelle méthode d'entraînement préalable qui hérite des avantages de BERT et XLNet tout en évitant leurs limitations. MPNet utilise la dépendance entre les jetons prédits grâce au modèle de langage permuté (contrairement à MLM dans BERT) et prend en compte des informations de position auxiliaires en entrée pour permettre au modèle de voir une phrase complète, réduisant ainsi la discordance de position (contrairement à PLM dans XLNet). Nous entraînons préalablement MPNet sur un ensemble de données à grande échelle (plus de 160 Go de corpus textuels) et effectuons un réglage fin sur diverses tâches en aval (GLUE, SQuAD, etc.). Les résultats expérimentaux montrent que MPNet surpasse largement MLM et PLM, et obtient des résultats supérieurs à ceux des méthodes d'entraînement préalable précédentes (comme BERT, XLNet, RoBERTa) sous les mêmes conditions de modèle. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/microsoft/MPNet.