2달 전
생성 예측 구조화된 트랜스포머: 대규모 비지도 문법 언어 모델
Xiang Hu; Pengyu Ji; Qingyang Zhu; Wei Wu; Kewei Tu

초록
구문 언어 모델(Syntactic Language Model, SLM)은 왼쪽에서 오른쪽으로 문장과 그 구문 트리를 점진적으로 생성합니다. 본 연구에서는 대규모로 원시 텍스트에서 처음부터 고도의 병렬성을 가지고 사전 학습할 수 있는 비지도 SLM인 생성 사전 학습 구조 변환기(Generative Pretrained Structured Transformers, GPST)를 제시합니다. GPST는 골드 트리에 의존하고 순차적 학습을 필요로 하는 이전 SLM들의 한계를 극복합니다. GPST는 단방향 언어 모델링 손실에 의해 감독되는 일반적인 SLM과 양방향 언어 모델링 손실에 의해 감독되는 추가적인 구성 모델로 구성됩니다. 구성 모델은 구문 분석 트리를 유도하고 구성 요소 표현을 계산합니다. 우리는 두 모델을 하드-EM 방식으로 공동으로 병렬 학습할 수 있도록 하는 표현 대용물을 제안합니다. 우리는 90억 개의 토큰을 포함하는 OpenWebText 코퍼스에서 GPST를 사전 학습시키고, 언어 이해와 언어 생성 모두를 포함하는 다양한 작업에서 GPT-2와 유사한 크기의 GPST가 GPT-2보다 우수함을 입증합니다. 또한 GPST는 왼쪽에서 오른쪽으로 문법 유도에서 기존의 비지도 SLM들보다 크게 우수하며, 학습 시간이 크게 단축됨을 보여줍니다.