
要約
文法構造モデル(SLM)は、左から右へと文とその文法木を逐次生成します。本稿では、Generative Pretrained Structured Transformers(GPST)を提案します。これは大規模な非監督SLMであり、未加工のテキストから高並列性でゼロから事前学習が可能です。GPSTは、ゴールドツリーへの依存や逐次的な学習といった従来のSLMの制限を克服しています。このモデルは2つのコンポーネントで構成されています。1つは単方向言語モデリング損失によって監督される通常のSLM、もう1つは双方向言語モデリング損失によって監督され、文法解析木を誘導し構成要素表現を計算する追加の合成モデルです。私たちは、これらの2つのモデルをハードEM方式で共同して並列的に学習させるための表現代替手法を提案します。GPSTは90億トークンのコーパスであるOpenWebText上で事前学習され、言語理解と言語生成に関する多数のタスクにおいてGPT-2同等サイズに対して優れた性能を示しました。さらに、GPSTは左から右への文法誘導において既存の非監督SLMよりも大幅に優れており、学習速度も大幅に向上しています。