2 个月前

生成预训练结构化变压器:大规模无监督句法语言模型

Xiang Hu; Pengyu Ji; Qingyang Zhu; Wei Wu; Kewei Tu
生成预训练结构化变压器:大规模无监督句法语言模型
摘要

一种句法语言模型(SLM)以从左到右的方式逐步生成带有其句法树的句子。本文介绍了生成预训练结构化变换器(GPST),这是一种大规模的无监督SLM,可以从原始文本中从零开始进行高并行度的预训练。GPST克服了以往SLM的局限性,例如依赖于金标准树和顺序训练。它由两个组件组成:一个通常的SLM,通过单向语言建模损失进行监督;以及一个额外的组合模型,该模型诱导句法分析树并计算成分表示,通过双向语言建模损失进行监督。我们提出了一种表示替代方法,以实现这两个模型在硬期望最大化(EM)方式下的联合并行训练。我们在包含90亿个标记的OpenWebText语料库上对GPST进行了预训练,并在涵盖语言理解和语言生成的多个任务中展示了GPST相对于具有相似规模的GPT-2的优势。同时,GPST在从左到右语法归纳方面也显著优于现有的无监督SLM,并且在训练速度上实现了大幅加速。