HyperAIHyperAI
il y a 9 jours

UniLMv2 : Modèles de langage à masquage pseudo-aléatoire pour l'entraînement préalable unifié des modèles de langage

Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon
UniLMv2 : Modèles de langage à masquage pseudo-aléatoire pour l'entraînement préalable unifié des modèles de langage
Résumé

Nous proposons de pré-entraîner un modèle linguistique unifié pour les tâches d'auto-encoding et de modélisation linguistique partiellement autoregressive à l'aide d'une nouvelle procédure d'entraînement, désignée sous le nom de modèle linguistique à masque pseudo (PMLM). Étant donné un texte d'entrée contenant des tokens masqués, nous utilisons des masques conventionnels pour apprendre les relations interne entre les tokens altérés et leur contexte via l'auto-encoding, et des masques pseudo pour apprendre les relations interne entre les segments masqués via une modélisation partiellement autoregressive. Grâce à des embeddings de position soigneusement conçus et à des masques d'attention auto-associative, les encodages de contexte sont réutilisés afin d'éviter un calcul redondant. De plus, les masques conventionnels utilisés pour l'auto-encoding fournissent des informations de masquage globales, permettant ainsi que tous les embeddings de position soient accessibles lors de la modélisation linguistique partiellement autoregressive. En outre, ces deux tâches permettent de pré-entraîner un modèle linguistique unifié respectivement comme encodeur bidirectionnel et comme décodeur séquence-à-séquence. Nos expériences montrent que les modèles linguistiques unifiés pré-entraînés grâce au PMLM atteignent de nouveaux résultats de pointe sur une large gamme de tâches de compréhension et de génération du langage naturel, sur plusieurs benchmarks largement utilisés.