9 天前

GLM:基于自回归空白填充的通用语言模型预训练

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang
GLM:基于自回归空白填充的通用语言模型预训练
摘要

现有的预训练架构包括自编码模型(如BERT)、自回归模型(如GPT)以及编码器-解码器模型(如T5)。然而,现有的各类预训练框架在三大主要任务类别——自然语言理解(NLU)、无条件生成与条件生成——中均无法在所有任务上均表现最佳。为此,我们提出了一种基于自回归填空机制的通用语言模型(General Language Model, GLM),以应对这一挑战。GLM通过引入二维位置编码,并允许以任意顺序预测被掩码的文本片段,从而改进了传统的填空式预训练方法,在NLU任务上实现了对BERT和T5的性能超越。同时,GLM可通过调整掩码的数量与长度,灵活地适应不同类型的任务进行预训练。在涵盖NLU、条件生成与无条件生成的广泛任务上,给定相同模型规模与训练数据,GLM的表现优于BERT、T5和GPT;其在仅使用BERT Large模型1.25倍参数量的情况下,即实现了单一预训练模型在多种下游任务中的最优性能,充分体现了该模型在不同任务间的强泛化能力。