2 个月前

生成预训练结构化变压器：大规模无监督句法语言模型

Xiang Hu; Pengyu Ji; Qingyang Zhu; Wei Wu; Kewei Tu

摘要

一种句法语言模型（SLM）以从左到右的方式逐步生成带有其句法树的句子。本文介绍了生成预训练结构化变换器（GPST），这是一种大规模的无监督SLM，可以从原始文本中从零开始进行高并行度的预训练。GPST克服了以往SLM的局限性，例如依赖于金标准树和顺序训练。它由两个组件组成：一个通常的SLM，通过单向语言建模损失进行监督；以及一个额外的组合模型，该模型诱导句法分析树并计算成分表示，通过双向语言建模损失进行监督。我们提出了一种表示替代方法，以实现这两个模型在硬期望最大化（EM）方式下的联合并行训练。我们在包含90亿个标记的OpenWebText语料库上对GPST进行了预训练，并在涵盖语言理解和语言生成的多个任务中展示了GPST相对于具有相似规模的GPT-2的优势。同时，GPST在从左到右语法归纳方面也显著优于现有的无监督SLM，并且在训练速度上实现了大幅加速。